Myanmar Unicode

From Wikipedia

မြန်မာအက္ခရာတစ်လုံးချင်းစီအတွက် သီးခြားသတ်မှတ်ပေးထားသော တိကျသည့် ဘုံသုံးစနစ် (U 1000 မှ U 109F အတွင်းရှိ အက္ခရာများ)

Unicode ဆိုသည်မှာ နိုင်ငံနှင့်လူမျိုးတိုင်းတွင် အသုံးပြုလျက်ရှိသော အက္ခရာစာလုံးများအတွက်

  • မည်သည့် Platform တွင် ဖြစ်စေ
  • မည်သည့် Program တွင် ဖြစ်စေ
  • မည်သည့် ဘာသာစကား language တွင် ဖြစ်စေ

သီးခြားသတ်မှတ်ပေးထားသည့် နံပါတ်များဖြစ်သည်။ Unicode ဆိုသည်မှာ ကမ္ဘာသုံးဘာသာစကား အားလုံးမှ အက္ခရာစာလုံး တစ်လုံးတိုင်းအတွက် တိကျသော နံပါတ် တစ်လုံးတည်းသာ သတ်မှတ်ပေးသော ဘုံသုံးစနစ်ဟူ၍လည်း ခေါ်ဆိုကြသည်။

Unicode => Universal Character Encoding

Unicode Consotium ခေါ် NGO အဖွဲ့အစည်းမှ တစ်ကမ္ဘာလုံးရှိ ဘာသာစကားများကို သိမ်းဆည်းနိုင်ရန်/ စာသားများဖလှယ်နိုင်ရန် တီထွင်ထားသော 16 bit character code set standard ဖြစ်သည်။ ISO (International Organization for Standardization) က ယင်းကို ISO-10646 ဟု သတ်မှတ်ပေးသည်။

Unicode ဖြင့် ဘာသာစကားပေါင်း များစွာကို Font တခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် ကွန်ပျူတာစနစ်တွင်မဆို အသုံးပြုနိုင်ရမည်ဖြစ်သည်။

Computer ဆိုသည်က ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ ကွန်ပျူတာတွင် ဖတ်မှတ်ခြင်း၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ ယူနီကုဒ်ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန်အတွက် လျှို့ ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ ဘာသာစကား တစ်ခုအတွက် ပြည့်စုံလုံလောက်သော encoding စနစ်များ မရှိပေ။

[ပြင်​ဆင်​ရန်​] Myanmar Unicode ၏ သမိုင်းကြောင်း

ASCII code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ အင်္ဂလိပ် Character set ယာယီ ငှားသုံးခဲ့ကြခြင်းဖြစ်သည်။ ဥပမာ- မြန်မာစာ “က” သည် အင်္ဂလိပ် အက္ခရာ U (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်းဖြစ်သည်။ သို့သော် ယူနီကုဒ်တွင် “က” နှင့် "u" သည် အက္ခရာတစ်ခုစီ ကွဲပြားနေသည်။ ကွန်ပျူတာက စံတစ်ခုကို သိလာမှသာ တစ်ကမ္ဘာလုံး မည်သည့်ကွန်ပျူတာကမဆို မြန်မာစာကို နားလည်လာပါမည်။ ကွန်ပျူတာက လက်ခံနိုင်သည့် စံ ဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U + 1001 အဖြစ် ကုတ်အနေဖြင့် ပုံသေ သတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကမ္ဘာလုံးရှိ Software Developer များ သိစေရန်နှင့် တပြေးညီအသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှု ကို ISO က စံထားပြီးသတ်မှတ်ပေးသည်။

အခြေခံ မြန်မာ Unicode Character Code ကို 1998 ခုနှစ်တွင် သတ်မှတ်အတည်ပြု ပြဌာန်းခဲ့ပြီးဖြစ်ပါသည်။ သို့သော် ထိုအချိန်တွင် ယူနီကုတ်ကို လိုက်လံအကောင်အထည်ဖော် တီထွင်ဆောင်ရွက်မည့်သူ တစ်ဦးမျှ မြန်မာနိုင်ငံတွင် မရှိခဲ့ပေ။ မြန်မာစာကို ယူနီကုတ်အဖြစ် သတ်မှတ်ပေးခဲ့စဥ်က ယူနီကုတ် Consotium အဖွဲ့ကြီးတွင် မြန်မာစာကို ကောင်းစွာ တတ်ကျွမ်းသူ မရှိသည့်အပြင် မြန်မာနိုင်ငံတွင်လည်း Unicode related technologies များကို နားလည်သူ တစ်ဦးမျှ ထွက်ပေါ်လာခြင်း မရှိသေးသဖြင့် ယူနီကုတ်ဆိုသည်မှာ ချိုနှင့်လား ပြန်မေးရမည့် အချိန်ဖြစ်သည်။ ပေးကားပေး၏၊ မရသေးသည့်သဘောဖြစ်ခဲ့ပါသည်။ အခြားအခက်အခဲတစ်ခုမှာ ထိုအချိန်က Unicode Character Set တွင် မြန်မာစကားလုံး အပြည့်အစုံမပါရှိပဲ မြန်မာစာတွင် မရှိသော စကားလုံးအချို့ပါ၀င်နေခဲ့သည့်အတွက် အကောင်အထည်ဖော်သူများအတွက် သတ်မှတ်ရန် စံ တစ်ခုတည်း မရှိခြင်းဖြစ်ပါသည်။

1999 ခုနှစ် နောက်ပိုင်းမှ 2002 ခုနှစ်အထိ မြန်မာစာ ယူနီကုတ်ကို သုံးစွဲနိုင်အောင် လုပ်ဆောင်နေသူများကို လေ့လာကြည့်ရာတွင် Graphite enabled Padauk သည်သာ ထင်ရှားသော ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ မြန်မာယူနီကုတ်နှင့် ပတ်သက်၍ ပထမဆုံးသော ကြိုးပမ်းမှုမှာ မန္တလေးပရိုဂျက်ဖြစ်မည်ဟု ယူဆရသည်။ ဩစတေးလျနိုင်ငံမှ ကိုဇော်အောင် ဦးဆောင်၍ ကမ္ဘာတဝှမ်းလုံးမှ မြန်မာများစုစည်းကာ Sourceforge တွင် မန္တလေးပရိုဂျက် [၁] ကို တည်ထောင်၍ Opensource Myanmar Language Processing စနစ် ကြိုးပမ်းဆောင်ရွက်ခဲ့သော်လည်း မန္တလေး ပရိုဂျက်မှာ တစ်၀က်တစ်ပျက်ြဖင့် ရပ်တန့်နေခဲ့ ပါသည်။ မြန်မာစာလုံးအပြည့်အစုံကို ယူနီကုတ် Consortium မှ တရား၀င်စံသတ်မှတ်ပေးရန် ထိုအဖွဲ့မှကြိုးစားခဲ့သော်လည်း ထိုစဥ်က အောင်မြင်မှု မရရှိခဲ့ပါ။

2002 ခုနှစ်၊ ဒီဇင်ဘာလ ရောက်မှ ကိုငွေထွန်း က မြစေတီ ယူနီကုတ် စနစ်ကို တီထွင်နိုင်ခဲ့ပြီး 2003 ခုနှစ်၊ ဇန်န၀ါရီလတွင် etrademyanmar.com ၌ ပထမဦးဆုံး စတင် အသုံးပြုနိုင်ခဲ့သည်။ ကိုငွေထွန်းသည် မြစေတီယူနီကုတ်ကို ရန်ကုန်မြို့ရှိ စာချုပ်စာတမ်းများ မှတ်ပုံတင်ရုံးတွင် ကုန်အမှတ်တံဆိပ် မှတ်ပုံတင်ပြီး တရား၀င်သုံးစွဲခဲ့ကြောင်း သိရှိရသည်။

2002 ခုနှစ်တွင် မြန်မာနိုင်ငံ၌ အတည်မပြုနိုင်သေးသည့် ယူနီကုတ်စနစ်ကို မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်မှ တာ၀န်ယူ လုပ်ဆောင်ကြရန် ဝိုင်းဝန်း တိုက်တွန်းကြပါသည်။ ယူနီကုတ်စနစ်ကို နိုင်ငံတော်စံတစ်ခုအနေဖြင့် အသုံးပြုနိုင်ရေးအတွက် လုပ်ငန်းစတင်ရန် ဘဏ္ဏာ​ရေးအထောက်အပံ့များ စတင်ရှာဖွေခဲ့ကြသည်။ နိုင်ငံတော်အကြီးအကဲများသည် မြန်မာ့စံယူနီကုတ်ဖြစ်မြောက်ရေးအတွက် ကျပ်သိန်း ၅၀ ကို စတင်ထောက်ပံ့ပေးခဲ့ပါသည်။ ဤသို့ဖြင့် Myanmar Unicode and NLP Research Centre သည် မြန်မာနိုင်ငံ ကွန်ပျူတာ သင်းချုပ်ကြီး၏ အစီအမံဖြင့် ဖွဲ့စည်းနိုင်ခဲ့သည်။ NLP အဖွဲ့ကြီးသည် 2002 ခုနှစ်မှစပြီး နိုင်ငံတော်အတွက် ယူနီကုတ်တာ၀န်များကို အချိန်ပြည့် စတင်တာ၀န်ယူ လုပ်ဆောင်ခဲ့သည် ဟု ဆိုနိုင်သည်။

[ပြင်​ဆင်​ရန်​] ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့ (Myanmar Unicode and NLP Research Centre)

မြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ကို NLP ဟုလည်း ခေါ်ကြသည်။ NLP ဆိုသည်မှာ Natural Language Processing ကို ခေါ်ဆိုခြင်းဖြစ်သည်။ NLP အဖွဲ့ကြီးသည် NGO (non-government organization) တစ်ခု ဖြစ်သလို NPO(non-profit organization) အဖွဲ့လည်း ဖြစ်သည်။ ကိုယ်ကျိုးမဖက် အများအကျိုးသက်သက် သို့မဟုတ် နိုင်ငံတော်အကျိုးအတွက် သက်သက် ဆောင်ရွက်နေသည့် အဖွဲ့ကြီးဟူ၍လည်း ဆိုနိုင်သည်။

NLP ကို 2003 ခုနှစ်၊ နို၀င်ဘာလ ၂၇ ရက်နေ့တွင် စတင်ဖွဲ့စည်းနိုင်ခဲ့ပြီး အဖွဲ့၀င် 17 ဦးဖြင့် အကောင်အထည်ဖော်နိုင်ခဲ့သည်။ 2003 ခုနှစ် နို၀င်ဘာလမှစပြီး Pentium IV Server ကွန်ပျူတာတစ်လုံးတပ်ဆင်ကာ မြန်မာနိုင်ငံကွန်ပျူတာအသင်းချုပ် ရှိ Incubation Centre တွင် မြန်မာယူနီကုတ်စနစ်ကို စတင်လုပ်ဆောင်ခဲ့ကြသည်။

NLP အဖွဲ့တွင် မြန်မာစာစနစ်ကို အကောင်အထည်ဖော်နိုင်ရန်အတွက် အဖွဲ့၏ကြီးကြပ်မှုအောက်တွင် အချိန်ပြည့် ပရိုဂရမ်မာ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာဘွဲ့ရ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာတန်းတက်ရောက်နေသူ (၂)ဦးတို့နှင့် ခန့်ထားပြီး စတင်လုပ်ဆောင်ခဲ့ကြသည်။

မြန်မာတစ်မျိုးသားလုံးအသုံးပြုရန် စံအဖြစ်လုပ်ဆောင်ကြရသည်ဖြစ်သောကြောင့် မြန်မာယူနီကုတ်ဖြစ်မြောက်ရေးအဖွဲ့တွင် နည်းပညာအရရော၊ မြန်မာစာစနစ်ဆိုင်ရာအတွက်ပါ မြန်မာစာအဖွဲ့မှ တတ်ကျွမ်း​​​သူ ပညာရှင်များနှင့် ဖွဲ့စည်းထားခဲ့ပါသည်။ မြန်မာစာအဖွဲ့မှ ညွှန်ကြားရေးမှူးချုပ် ဦးစံလွင်၊ မြန်မာစာအဖွဲ့၀င် ဦးထွန်းတင့် ၊ သမိုင်းအဖွဲ့၀င် ဦးသော်ကောင်းတို့ ပါ၀င်ကြသည်။ ကွန်ပျူတာနည်းပညာအတွက် ပညာရှင်များဖြစ်သော ဦးသိန်းထွဋ်၊ ဦးဇော်ထွဋ်၊ ဦးငွေထွန်း၊ ဦးဝေလင်းကျော် တို့က စိတ်ရောကိုယ်ပါ ယနေ့တိုင် အကူအညီပေး ဆောင်ရွက်လျက် ရှိကြသည်။ အတွင်းရေးမှူးမှာ ဒေါက်တာ ဒေါ်မြင့်မြင့်သန်း ဖြစ်သည်။File:Nlp.jpg