Unicode

From Wikipedia

Personal Computer Magazine မှ ကူးယူဖော်ပြသည်။
Unicode ဆိုသည်မှာ နိုင်ငံနှင့် လူမျိုးတိုင်းတွင် အသုံးပြုလျက် ရှိသော အက်ခရာစာလုံးများအတွက်ဖြစ်သည်။ မည်သည့် paltform တွင်ဖြစ်စေ ၊ မည်သည့် program တွင်ဖြစ်စေ ၊ မည်သည့် ဘာသာစကားတွင်ဖြစ်စေ သီးခြားသတ်မှတ်ပေးထားသည့် နံပတ်များဖြစ်သည်။

Unicode ဆိုသည်မှာ ကဘ္မာ​သုံး ဘာသာစကားအားလုံးမှ အက္ခ​ရာစာလုံး တစ်လုံးတိုင်းအတွက် တိကျသော နံပါတ်တစ်လုံးတည်းသာ သတ်မှတ်ပေးသော ဘုံသုံးစနစ် ဟူ၍လည်း ဆိုကြသည်။ Unicode ဖြင့် ဘာသာစကားပေါင်း များစွာကို Font တစ်ခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် Computer စနစ်တွင်မဆို အသုံးပြုနိုင်ရမည် ဖြစ်ပေသည်။

Computer သည် ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ Computer တွင် ဖတ်မှတ်ခြင်း ၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ Unicode ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန် အတွက် လျှို့ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ ဘာသာစကားတစ်ခုအတွက် ပြည့်စုံလုံလောက်သည့် encoding စနစ်မှား မရှိပေ။

Unicode ဆိုသည်မှာ Universal Character Encoding ဖြစ်သည်။ Unicode Consortium ခေါ် NGO အဖွဲ့အစည်းမှ တစ်ကဘ္မာ​လုံးရှိ ဘာသာစကားများကို သိမ်းဆည်းနိုင်ရန် ၊ စာသားများ ဖလှယ်ရန် တီထွင်ထားသော 16-bit character codte set standard ဖြစ်သည်။ ISO (International Organization for Standardization) က ယင်းကို ISO-10646 ဟုသတ်မှတ်ပေးထားသည်။

ယခင်က ASCII code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ English Character set ကိုယာယီ ငှားသုံးခဲ့ကြခြင်း ဖြစ်သည်။ ဥပမာ မြန်မာစာ 'က' သည် English အက်ခရာ u (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်း ဖြစ်သည်။ သို့သော် Unicode တွင် က နှင့် u သည် အက်ခရာ တစ်ခုစီကွဲခြားနေသည်။ Computer က စံတစ်ခုကို သိလာမှသာ တစ်ကဘ္မာ​လုံး မည်သည့် Computer ကမဆို မြန်မာစာကို နားလည်လာပါမည်။ Computer က လက်ခံနိုင်သည့် စံဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U+1001 အဖြစ် code အနေဖြင့် ပုံသေသတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကဘ္မာ​လုံးရှိ software developer များသိစေရန်နှင့် တစ်ပြေးညီ အသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှု​ကို​ ISO က စံထားပြီး သတ်မှတ်ပေးသည်။