Myanmar Unicode

Wikipedia မှ
ဤနေရာသို့သွားရန် - အ​ညွှန်း​, ရှာ​ဖွေ​ရန်​
Merge arrows ဤ အကြောင်းအရာကို (သို့မဟုတ်) ဤစာမျက်နှာ၏ တစိတ်တပိုင်းကို မြန်မာ ယူနီကုဒ် နှင့် ပေါင်းစပ်ရန် အကြံ ပြုထားပါသည်။ (ဆွေးနွေးရန်)

မြန်မာအက္ခရာတစ်လုံးချင်းစီအတွက် သီးခြားသတ်မှတ်ပေးထားသော တိကျသည့် ဘုံသုံးစနစ် (U 1000 မှ U 109F အတွင်းရှိ အက္ခရာများ)

Unicode ဆိုသည်မှာ နိုင်ငံနှင့်လူမျိုးတိုင်းတွင် အသုံးပြုလျက်ရှိသော အက္ခရာစာလုံးများအတွက်

  • မည်သည့် Platform တွင် ဖြစ်စေ
  • မည်သည့် Program တွင် ဖြစ်စေ
  • မည်သည့် ဘာသာစကား language တွင် ဖြစ်စေ

သီးခြားသတ်မှတ်ပေးထားသည့် နံပါတ်များဖြစ်သည်။ Unicode ဆိုသည်မှာ ကမ္ဘာသုံးဘာသာစကား အားလုံးမှ အက္ခရာစာလုံး တစ်လုံးတိုင်းအတွက် တိကျသော နံပါတ် တစ်လုံးတည်းသာ သတ်မှတ်ပေးသော ဘုံသုံးစနစ်ဟူ၍လည်း ခေါ်ဆိုကြသည်။

Unicode => Universal Character Encoding

Unicode Consortium ခေါ် NGO အဖွဲ့အစည်းမှ တစ်ကမ္ဘာလုံးရှိ ဘာသာစကားများကို သိမ်းဆည်းနိုင်ရန်/ စာသားများဖလှယ်နိုင်ရန် တီထွင်ထားသော 16 bit character code set standard ဖြစ်သည်။ ISO (International Organization for Standardization) က ယင်းကို ISO-10646 ဟု သတ်မှတ်ပေးသည်။

Unicode ဖြင့် ဘာသာစကားပေါင်း များစွာကို Font တခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် ကွန်ပျူတာစနစ်တွင်မဆို အသုံးပြုနိုင်ရမည်ဖြစ်သည်။

Computer ဆိုသည်က ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ ကွန်ပျူတာတွင် ဖတ်မှတ်ခြင်း၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ ယူနီကုဒ်ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန်အတွက် လျှို့ ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ ဘာသာစကား တစ်ခုအတွက် ပြည့်စုံလုံလောက်သော encoding စနစ်များ မရှိပေ။

Myanmar Unicode ၏ သမိုင်းကြောင်း[ပြင်​ဆင်​ရန်​]

ASCII code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ အင်္ဂလိပ် Character set ယာယီ ငှားသုံးခဲ့ကြခြင်းဖြစ်သည်။ ဥပမာ- မြန်မာစာ “က” သည် အင်္ဂလိပ် အက္ခရာ U (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်းဖြစ်သည်။ သို့သော် ယူနီကုဒ်တွင် “က” နှင့် "u" သည် အက္ခရာတစ်ခုစီ ကွဲပြားနေသည်။ ကွန်ပျူတာက စံတစ်ခုကို သိလာမှသာ တစ်ကမ္ဘာလုံး မည်သည့်ကွန်ပျူတာကမဆို မြန်မာစာကို နားလည်လာပါမည်။ ကွန်ပျူတာက လက်ခံနိုင်သည့် စံ ဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U + 1001 အဖြစ် ကုတ်အနေဖြင့် ပုံသေ သတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကမ္ဘာလုံးရှိ Software Developer များ သိစေရန်နှင့် တပြေးညီအသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှု ကို ISO က စံထားပြီးသတ်မှတ်ပေးသည်။

အခြေခံ မြန်မာ Unicode Character Code ကို 1998 ခုနှစ်တွင် သတ်မှတ်အတည်ပြု ပြဌာန်းခဲ့ပြီးဖြစ်ပါသည်။ သို့သော် ထိုအချိန်တွင် ယူနီကုဒ်ကို လိုက်လံအကောင်အထည်ဖော် တီထွင်ဆောင်ရွက်မည့်သူ တစ်ဦးမျှ မြန်မာနိုင်ငံတွင် မရှိခဲ့ပေ။ မြန်မာစာကို ယူနီကုဒ်အဖြစ် သတ်မှတ်ပေးခဲ့စဉ်က ယူနီကုဒ် Consortium အဖွဲ့ကြီးတွင် မြန်မာစာကို ကောင်းစွာ တတ်ကျွမ်းသူ မရှိသည့်အပြင် မြန်မာနိုင်ငံတွင်လည်း Unicode related technologies များကို နားလည်သူ တစ်ဦးမျှ ထွက်ပေါ်လာခြင်း မရှိသေးသဖြင့် ယူနီကုဒ်ဆိုသည်မှာ ချိုနှင့်လား ပြန်မေးရမည့် အချိန်ဖြစ်သည်။ ပေးကားပေး၏၊ မရသေးသည့်သဘောဖြစ်ခဲ့ပါသည်။ အခြားအခက်အခဲတစ်ခုမှာ ထိုအချိန်က Unicode Character Set တွင် မြန်မာစကားလုံး အပြည့်အစုံမပါရှိပဲ မြန်မာစာတွင် မရှိသော စကားလုံးအချို့ပါဝင်နေခဲ့သည့်အတွက် အကောင်အထည်ဖော်သူများအတွက် သတ်မှတ်ရန် စံ တစ်ခုတည်း မရှိခြင်းဖြစ်ပါသည်။

1999 ခုနှစ် နောက်ပိုင်းမှ 2002 ခုနှစ်အထိ မြန်မာစာ ယူနီကုဒ်ကို သုံးစွဲနိုင်အောင် လုပ်ဆောင်နေသူများကို လေ့လာကြည့်ရာတွင် Graphite enabled Padauk သည်သာ ထင်ရှားသော ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ မြန်မာယူနီကုဒ်နှင့် ပတ်သက်၍ ပထမဆုံးသော ကြိုးပမ်းမှုမှာ မန္တလေးပရိုဂျက်ဖြစ်မည်ဟု ယူဆရသည်။ ဩစတေးလျနိုင်ငံမှ ကိုဇော်အောင် ဦးဆောင်၍ ကမ္ဘာတစ်ဝှမ်းလုံးမှ မြန်မာများစုစည်းကာ Source forge တွင် မန္တလေးပရိုဂျက် [၁] ကို တည်ထောင်၍ Opensource Myanmar Language Processing စနစ် ကြိုးပမ်းဆောင်ရွက်ခဲ့သော်လည်း မန္တလေး ပရိုဂျက်မှာ တစ်ဝက်တစ်ပျက်ဖြင့် ရပ်တန့်နေခဲ့ ပါသည်။ မြန်မာစာလုံးအပြည့်အစုံကို ယူနီကုဒ် Consortium မှ တရားဝင်စံသတ်မှတ်ပေးရန် ထိုအဖွဲ့မှကြိုးစားခဲ့သော်လည်း ထိုစဉ်က အောင်မြင်မှု မရရှိခဲ့ပါ။

2002 ခုနှစ်၊ ဒီဇင်ဘာလ ရောက်မှ ကိုငွေထွန်း က မြစေတီ ယူနီကုဒ် စနစ်ကို တီထွင်နိုင်ခဲ့ပြီး 2003 ခုနှစ်၊ ဇန်နဝါရီလတွင် etrademyanmar.com ၌ ပထမဦးဆုံး စတင် အသုံးပြုနိုင်ခဲ့သည်။ ကိုငွေထွန်းသည် မြစေတီယူနီကုဒ်ကို ရန်ကုန်မြို့ရှိ စာချုပ်စာတမ်းများ မှတ်ပုံတင်ရုံးတွင် ကုန်အမှတ်တံဆိပ် မှတ်ပုံတင်ပြီး တရားဝင်သုံးစွဲခဲ့ကြောင်း သိရှိရသည်။

2002 ခုနှစ်တွင် မြန်မာနိုင်ငံ၌ အတည်မပြုနိုင်သေးသည့် ယူနီကုဒ်စနစ်ကို မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်မှ တာဝန်ယူ လုပ်ဆောင်ကြရန် ဝိုင်းဝန်း တိုက်တွန်းကြပါသည်။ ယူနီကုဒ်စနစ်ကို နိုင်ငံတော်စံတစ်ခုအနေဖြင့် အသုံးပြုနိုင်ရေးအတွက် လုပ်ငန်းစတင်ရန် ဘဏ္ဍာရေးအထောက်အပံ့များ စတင်ရှာဖွေခဲ့ကြသည်။ နိုင်ငံတော်အကြီးအကဲများသည် မြန်မာ့စံယူနီကုဒ်ဖြစ်မြောက်ရေးအတွက် ကျပ်သိန်း ၅၀ ကို စတင်ထောက်ပံ့ပေးခဲ့ပါသည်။ ဤသို့ဖြင့် Myanmar Unicode and NLP Research Centre ကို မြန်မာနိုင်ငံ ကွန်ပျူတာ သင်းချုပ်ကြီး၏ အစီအမံဖြင့် ဖွဲ့စည်းနိုင်ခဲ့သည်။ ထို့ကြောင့် NLP အဖွဲ့ကြီးသည် 2002 ခုနှစ်မှစတင်ပြီး နိုင်ငံတော်အတွက် ယူနီကုဒ်တာဝန်များကို အချိန်ပြည့် တာဝန်ယူ လုပ်ဆောင်ခဲ့သည် ဟု ဆိုနိုင်သည်။

ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့ (Myanmar Unicode and NLP Research Centre)

မြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ကို NLP ဟုလည်း ခေါ်ကြသည်။ NLP ဆိုသည်မှာ Natural Language Processing ကို ခေါ်ဆိုခြင်းဖြစ်သည်။ NLP အဖွဲ့ကြီးသည် NGO (non-government organization) တစ်ခု ဖြစ်သလို NPO (non-profit organization) အဖွဲ့လည်း ဖြစ်သည်။ ကိုယ်ကျိုးမဖက် အများအကျိုးသက်သက် သို့မဟုတ် နိုင်ငံတော်အကျိုးအတွက် သက်သက် ဆောင်ရွက်နေသည့် အဖွဲ့ကြီးဟူ၍လည်း ဆိုနိုင်ပေသည်။

NLP ကို 2003 ခုနှစ်၊ နိုဝင်ဘာလ ၂၇ ရက်နေ့တွင် စတင်ဖွဲ့စည်းနိုင်ခဲ့ပြီး အဖွဲ့ဝင် 17 ဦးဖြင့် အကောင်အထည်ဖော်နိုင်ခဲ့သည်။ 2003 ခုနှစ် နိုဝင်ဘာလမှစပြီး Pentium IV Server ကွန်ပျူတာတစ်လုံးတပ်ဆင်ကာ မြန်မာနိုင်ငံကွန်ပျူတာအသင်းချုပ် ရှိ Incubation Center တွင် မြန်မာယူနီကုဒ်စနစ်ကို စတင်လုပ်ဆောင်ခဲ့ကြသည်။

NLP အဖွဲ့တွင် မြန်မာစာစနစ်ကို အကောင်အထည်ဖော်နိုင်ရန်အတွက် အဖွဲ့၏ကြီးကြပ်မှုအောက်တွင် အချိန်ပြည့် ပရိုဂရမ်မာ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာဘွဲ့ရ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာတန်းတက်ရောက်နေသူ (၂)ဦးတို့နှင့် ခန့်ထားပြီး စတင်လုပ်ဆောင်ခဲ့ကြသည်။

မြန်မာတစ်မျိုးသားလုံးအသုံးပြုရန် စံအဖြစ်လုပ်ဆောင်ကြရသည်ဖြစ်သောကြောင့် မြန်မာယူနီကုဒ်ဖြစ်မြောက်ရေးအဖွဲ့တွင် နည်းပညာအရရော၊ မြန်မာစာစနစ်ဆိုင်ရာအတွက်ပါ မြန်မာစာအဖွဲ့မှ တတ်ကျွမ်းသူ ပညာရှင်များနှင့် ဖွဲ့စည်းထားခဲ့ပါသည်။ မြန်မာစာအဖွဲ့မှ ညွှန်ကြားရေးမှူးချုပ် ဦးစံလွင်၊ မြန်မာစာအဖွဲ့ဝင် ဦးထွန်းတင့် ၊ သမိုင်းအဖွဲ့ဝင် ဦးသော်ကောင်းတို့ ပါဝင်ကြသည်။ ကွန်ပျူတာနည်းပညာအတွက် ပညာရှင်များဖြစ်သော ဦးသိန်းထွဋ်၊ ဦးဇော်ထွဋ်၊ ဦးငွေထွန်း၊ ဦးဝေလင်းကျော် တို့က စိတ်ရောကိုယ်ပါ ယနေ့တိုင် အကူအညီပေး ဆောင်ရွက်လျက် ရှိကြသည်။ အတွင်းရေးမှူးမှာ ဒေါက်တာ ဒေါ်မြင့်⁠မြင့်သန်း ဖြစ်သည်။File:Nlp.jpg