ကွန်ပျူတာဘာသာပြန်စနစ်

Wikipedia မှ
ဤနေရာသို့သွားရန် - အ​ညွှန်း​, ရှာ​ဖွေ​ရန်​

နိဒါန်း[ပြင်​ဆင်​ရန်​]

ကွန်ပျူတာ​ဘာသာ​ပြန်​နည်း​စနစ်​များ​ကို ကမ္ဘာပေါ်​ရှိ နေရာ​ပေါင်း​များ​စွာ​တွင် ကျယ်​ပြန့်​စွာ အသုံးပြု​နေ​ကြ​သည်။ နိုင်ငံ​အသီး​သီး​ရှိ တက္ကသိုလ်​များ၊ ပုဂ္ဂလိက အဖွဲ့​အစည်း​များ​နှင့် အစိုးရ​ဌာန​များ​က ငွေ​ကြေး​အမြောက်​အများ အကုန်​ကျ​ခံ သုံးစွဲ​၍ အကောင်​အထည်ဖော်​လျက် ရှိ​ကြ​သည်။ တစ်​ကိုယ်​ရေ​သုံး အိတ်​ဆောင် ဘာသာ​ပြန်​စက်​ငယ်​လေး​များ​မှ စစ်မြေပြင်​သုံး Smart Phone နည်း​ပညာ​များ​အထိ ရောက်​ရှိ​နေ​ပါ​သည်။ အမေ​ရိ​ကန်​တို့ အာ​ဖ​ကန္နစ္စ​တန် သို့ ကျူးကျော်​တိုက်ခိုက်​စဉ်​က အဖြစ်အပျက်​တစ်​ရပ်​က​လည်း ဤ​နည်း​ပညာ​၏ အသုံးဝင်​မှု​ကို ပေါ်လွင်​စေ​ခဲ့​သည်။ စက်တင်ဘာ ၁​၁ ရက် ၂​၀⁠၀​၁ အမေ​ရိ​ကန်​တို့ အာ​ဖ​က​နစ္စ​တန်​ကို တိုက်ခိုက်​သိမ်းပိုက်​ပြီး နောက်​ပိုင်း အာ​ရပ်​ဘာသာ​စကား​သည် အဓိက​ပြဿနာ ဖြစ်​ခဲ့​သည်။ ကန်​တပ်ဖွဲ့​ဝင်​များ​နှင့်​အတူ လိုက်​ပါ​တာဝန်​ထမ်း​ဆောင်​ဖို့ စကားပြန်​များခေါ်​ယူ​ခဲ့သော်​လည်း စစ်​ပွဲ​အတွင်း​မို့ လိုက်​ပါ​လို​သူ သိပ်​မ​ရှိ​လှ။ ခေါ်​ဆောင်​လာ​သည့် ဘာသာ​ပြန်​အတော်​များ⁠များ​လည်း သေ​နတ်​ဆံ၊ဗုံး​ဆံ ကြောက်​၍ ပြန်​ပြေး​ကြ​သူ​များ​နှင့်​သာ ပြည့်​နေ​သည်။ အမေ​ရိ​ကန်​တို့ ခေါင်း​ချင်း​ရိုက်​ကုန်​ကြ​သည်။ ဘာသာ​ပြန်​တွေ မ​ရှိ​လို့​မ​ဖြစ်။ နောက်ဆုံး ဒီ​ပြဿနာ​က အမေ​ရိ​ကန် အဆင့်​မြင့် ကာ​ကွယ်​ရေး သု​တေ​သန အေဂျင်စီ (DARPA) သို့ ရောက်​ရှိ​သွား​သည်။ DARPA က အမျိုးသား စံ​သတ်​မှတ်ချက်​နှင့် နည်း​ပညာ​ဆိုင်​ရာ အဖွဲ့​ကြီး(NIST) သို့ လူ​အစားထိုး အင်္ဂလိပ်-အာ​ဖ​ကန် ကွန်ပျူတာ ဘာသာ​ပြန်​စနစ် တစ်​ရပ် အကောင်အထည် ဖော်​ပေး​ရန် ပန်ကြား​လေ​သည်။ သို့​နှင့် ကွန်ပျူတာ ဘာသာ​ပြန် လုပ်​ငန်း​စဉ်​မှာ နည်း​ပညာ​နယ်ပယ်​မှ​သည် စစ်မြေပြင်​သို့​ပင် ကျယ်​ပြန့်​စွာ​ရောက်​ရှိ​လာ​တော့​သည်။

ကွန်ပျူတာ​ဘာသာ​ပြန်​စနစ် -- Machine Translation (MT)[ပြင်​ဆင်​ရန်​]

ကွန်ပျူတာ​ဘာသာ​ပြန်​စနစ် (MT) ဆို​တာ ဘာ​လဲ ?[ပြင်​ဆင်​ရန်​]

ဘာသာ​စကား​တစ်​ခု​မှ အခြား​ဘာသာ​စကား​တစ်​ခု​ကို ဘာသာ​ပြန်ဆို​ရာ​မှာ လူ​ဘာသာ​ပြန်​များ​၏​နေရာ​ကို အစားထိုး​ပြီး ကွန်ပျူတာ​ကို ဘာသာ​ပြန်ဆို​ခိုင်း​ခြင်း​ပင် ဖြစ်​ပါ​တယ်။ လူ​ဘာသာ​ပြန်​များ​ကို အစားထိုး​မည်​ဆို​တာ့ MT က ဘာ​တွေ​ကောင်း​နေ​ပါ​သလဲ ?

  • ၁။ အလွန် လျင်မြန်​မှု ရှိ​ပါ​သည်။
  • ၂။ မှတ်သား​နိုင်​မှု​စွမ်း​ရည် မြင့်​မား​ပါ​သည်။
  • ၃။ ထို့​ကြောင့် ဘာသာ​ပြန်​နိုင်​စွမ်းအား မြင့်​မား​ပါ​သည်။
  • ၄။ ဘယ်​တော့​မှ ပင်ပန်း​နွမ်းနယ်​သည်​ဟု မ​ဆို​ပါ။
  • ၅။ ဘယ်​တော့​မှ ကွန်​ပ​လိန်း​မ​တက်​ပါ။

MT ရဲ့ မ​ကောင်း​တဲ့​အချက်​တွေ​က​ရော ?[ပြင်​ဆင်​ရန်​]

  • ၁။ လူ​ဘာသာ​ပြန်​များ​လောက် မှန်ကန်​မှု မ​ရှိ​နိုင်​ပါ။
  • ၂။ ဘာသာ​ပြန်ဆို​သည့် ပုံစံ​မျိုး​စုံ​မ​ရ​ရှိ​နိုင်​ပါ။
  • ၃။ သ​ဘာ​ဝ​ကျ​ကျ ပြန်ဆို​နိုင်​ခြင်း မ​ရှိ​ပါ။
  • ၄။ လူ​ဘာသာ​ပြန်​ကဲ့သို့ ခံစား​ချက်​များ​ထည့်​သွင်း ပြန်ဆို​နိုင်​ခြင်း​မ​ရှိ​ပါ။

MT ကို ဘယ်​လို​နေရာ​မျိုး​တွေ/ဘယ်​လို​လူ​မျိုး​တွေ အဓိက​သုံး​မှာ​လဲ ?[ပြင်​ဆင်​ရန်​]

  • ၁။ လူ​ဘာသာ​ပြန်​များ ရ​ရှိ​ဖို့ ခက်ခဲ​တဲ့ နေရာ​မျိုး​တွေ
  • ၂။ စာ​ရွက်​စာ​တမ်း​အရေအတွက်​များ⁠များ​ကို အချိန်​တို⁠တို​နှင့် ဘာသာ​ပြန်​ဖို့ လို​အပ်​နေ​တဲ့ နေရာ​မျိုး​တွေ
  • ၃။ လူ​ဘာသာ​ပြန်​များ​ကို ငွေ​ကြေး​အမြောက်​အများ​သုံးစွဲ​ပြီး ငှားရမ်း​ခြင်း​မ​ပြု​နိုင်​သည့် နေရာ​မျိုး​တွေ
  • ၄။ အင်္ဂလိပ်​စာ (သို့) ခေတ်​မီ​နည်း​ပညာ​များ​ကို လေ့​လာ​နေ​သည့် သူ​များ
  • ၅။ ဘာသာ​စကား အခက်​အခဲ​ရှိ​နေ​သူ​များ အစ​ရှိ​သ​ဖြင့် နေရာ​စုံ ၊ ကဏ္ဍ​စုံ​မှာ အသုံးပြု​နိုင်​ပါ​တယ်။

ကွန်ပျူတာ​ဘာသာ​ပြန်​စနစ်​ကို ဘယ်​လို​အကောင်​အထည်ဖော်​လဲ[ပြင်​ဆင်​ရန်​]

ကွန်ပျူတာ ဘာသာ​ပြန်​လုပ်​ငန်း​ကို အကောင်​အထည်ဖော်​ဖို့ နည်း​စနစ် မြောက်​များ​စွာ ရှိ​ပါ​တယ်။ အဓိက နည်း​စနစ်​တစ်​ချို့​ကတော့ အောက်​ပါ​အတိုင်း ဖြစ်​ပါ​တယ်။

  • က။ အဘိဓာန်​ကို အခြေ​ခံထား​သည့် နည်း​စနစ် (Dictionary-based MT)
  • ခ။ သဒ္ဒါနည်း​လမ်း​စည်းကမ်း​များ​အပေါ် အခြေ​ခံထား​သည့် နည်း​စနစ် (Rule-based MT)
  • ဂ။ သင်္ချာ​ပုံသေ​နည်း​များ​ဖြင့် ဖြစ်​တန်​စွမ်း​များ​ကို တွက်​ထုတ်​ဘာသာ​ပြန်​ပေး​သည့် နည်း​စနစ် (Statistical MT)
  • ဃ။ ဘာသာ​ပြန်​နည်း​စနစ်​များ​ကို ပေါင်း​စပ်​အသုံးပြု​ထား​သည့် နည်း​စနစ် (Hybrid MT)

ကွန်ပျူတာ​ဘာသာ​ပြန်ဆို​မှု​လုပ်​ငန်း​စဉ်​၏ အဓိက အခက်​အခဲ​များ[ပြင်​ဆင်​ရန်​]

  • ၁။ စာ​ကြောင်း​များ၊ စကားလုံး​များ ခွဲ​ခြား​စိစစ်​ပေး​ရ​ခြင်း (Word/Sentence Segmentation)

စာ​ကြောင်း​ခွဲ​ခြား​ခြင်း[ပြင်​ဆင်​ရန်​]

  1. အင်္ဂလိပ်​ဘာသာ​မှာ စာ​ကြောင်း​တစ်​ကြောင်း​ကို Full-stop (.) ဖြင့် ခွဲ​ခြား​ပါ​တယ်။
  2. ထိုင်း​လို အချို့​ဘာသာ​စကား​များ​မှာ ထို​ကဲ့သို့ စာ​ကြောင်း​ဖြတ် လက္ခဏာ မ​ရှိ​ပါ။
  3. ထို​အတွက် စာ​ကြောင်း​ခွဲ​ခြား​ခြင်း လုပ်​ငန်း​စဉ်​များ ဆောင်ရွက်​ဖို့ လို​အပ်​နေ​ပါ​တယ်။

စကားလုံး​ခွဲ​ခြား​ခြင်း[ပြင်​ဆင်​ရန်​]

  1. အင်္ဂလိပ်​ဘာသာ​မှာ စကားလုံး​များ​ကို Space များ​ဖြင့် ခွဲ​ခြား​ပါ​တယ်။
  2. မြန်မာ​လို ဘာသာ​စကား​အချို့​မှာ ပုံ​မှန်​အား​ဖြင့် စကားလုံး​များ​အကြား ခွဲ​ခြား​ပေး​သည့် လက္ခဏာ မ​ရှိ​ပါ။
  3. ထို့​ကြောင့် စကားလုံး​ခွဲ​ခြား​ခြင်း လုပ်​ငန်း​စဉ်​များ ဆောင်ရွက်​ဖို့ လို​အပ်​နေ​ပါ​တယ်။
  • ၂။ စကားလုံး အဓိပ္ပါယ် မျိုး​စုံ​ကွဲပြား​ခြား​နား​ခြင်း (Word sense disambiguation)

စကားလုံး​တစ်​လုံး​ဟာ အဓိပ္ပါယ်​မျိုး​စုံ ရှိ​နေ​တာ​မျိုး​ဟာ ဘာသာ​စကား​တိုင်း​လိုလို​ပါ​ပဲ။ ဥပမာ Have ဆို​တဲ့​စကားလုံး​ကို စား​တယ်၊ သောက်​တယ်၊ ရေချိုး​တယ် အစ​ရှိ​ဖြင့် စာ​ကြောင်း အနေအထား​များ​အပေါ် မူ​တည်​ပြီး​ဘာသာ​ပြန်ဆို​နိုင်​ပါ​တယ်။ အဲ​ဒီ​တော့ ဒါ​တွေ့​ဒါ​ပြန် ဆို​တာ​မျိုး လုပ်​လို့​မ​ရ​တော့​တာ၊ စာ​ကြောင်း​ရှေ့နောက်​ဆက်​စပ် လေ့​လာ​ရ​တာ​မျိုး​တွေ လို​အပ်​လာ​ပါ​တယ်။

  • ၃။ ကန့်သတ်​ချက်မ​ရှိ​တဲ့ နာမည်​အမျိုး​အစား​ပေါင်း​များ​စွာ​ရှိ​နေ​ခြင်း (Named entities)

လူ​နာမည်၊ မြို့​ရွာ​တိုင်း​ပြည်​နာမည်၊ အဖွဲ့​အစည်း​နာမည် စ​သည်​ဖြင့်​နာမည်​ပေါင်း​များ​စွာ​ဟာ​လည်း ဘာသာ​ပြန်​လုပ်​ငန်း​စဉ်​ကို များ​စွာ​ခက်ခဲ​စေ​ပါ​တယ်။ စကားလုံး​တစ်​လုံး​တွေ့​ရုံ​နဲ့ နာမည်​လား ၊ ရိုး⁠ရိုး​အဓိပ္ပါယ်​ရှိ​တဲ့ စကားလုံး​လား​ဆို​တာ ခွဲ​ခြား​ဖို့ ခက်ခဲ​တတ်​ပါ​တယ်။ ဥပမာ "ဆိတ်​ဖြူ" ဆို​တာ မြို့​ရွာ​နာမည်​လား? အဖြူ​ရောင်​ရှိ​တဲ့ ဆိတ်​ကို​ပြော​တာ​လား? "ဖိုး​ဆိတ်​ဖြူ" ဆို​တဲ့ ကာ​တွန်း​ဇတ်​ကောင်​တောင်​ရှိ​နေ​ပါ​သေး​တယ်။ နောက်​အခက်​အခဲ​များ​ကတော့

  • ၄။ ဗန်း​စကား​များ (Idioms) နဲ့
  • ၅။ သဒ္ဒါ​တည်ဆောက်​ပုံ ကွဲပြား​ခြား​နား​မှု​များ ပဲ​ဖြစ်​ပါ​တယ်။

လက်​ရှိ မြန်မာ​နိုင်ငံ​တွင် အကောင်​အထည်ဖော်​နေ​မှု အခြေအနေ​များ[ပြင်​ဆင်​ရန်​]

မြန်မာ​နိုင်ငံ​မှာ​လည်း ဤ​ကွန်ပျူတာ​ဘာသာ​ပြန်​စနစ် ကို ကွန်ပျူတာ​သုံး မြန်မာ​စာ စနစ်၊ စံ​နှင့် အသုံး​ချ​ရေး လုပ်​ငန်း​အဖွဲ့ (Myanmar Unicode And NLP Research Center) က ၂​၀⁠၀​၉ ခု​နှစ်၊ ဇန်နဝါရီ​လ ၁ ရက် နေ့​မှ စတင်​၍ အကောင်​အထည်ဖော်​လျက်​ပြီး RMBT နည်း​စနစ်​ကို အသုံးပြု​ထား​သည့် ဘာသာ​ပြန်​စနစ် စမ်းသပ်​အဆင့်-၁ (Beta Version-1) ကို အောက်​ပါ links များ​တွင် အခ​မဲ့ စမ်းသပ်​သုံးစွဲ​နိုင်​ပါ​တယ်။

အထက်​ပါ RBMT နည်း​စနစ်​ထက် ပိုမို​ကောင်းမွန်​သည့် ဘာသာ​ပြန်​စနစ် ထပ်​မံပေါ်​ထွက်​လာ​စေ​ရန် ရည်​ရွယ်​၍ လက်​ရှိ​တွင် SMT နည်း​စနစ်​ကို အသုံးပြု​၍ ဘာသာ​ပြန်​လုပ်​ငန်း​များ​ကို ဆက်လက်​အကောင်​အထည်ဖော်​လျက်​ရှိ​ပြီး မ​ကြာ​မီ အသုံးပြု​နိုင်​တော့​မည်​ဟု မျှော်​မှန်း​ရ​ပါ​တယ်။ ထို့​အပြင် ရန်ကုန်​ကွန်ပျူတာ​တက္ကသိုလ် NLP သု​တေ​သန​ဌာန​မှ​လည်း ကွန်ပျူတာ​ဘာသာ​ပြန်​စနစ်​တစ်​ရပ်​ကို ၎င်း​တို့​၏ ဝဘ်​စာ​မျက်နှာ

တွင် လူ​အများ​အသုံးပြု​နိုင်​စေ​ရန် လွှင့်​တင်​ထား​သည်​ကို တွေ့​ရှိ​ရ​ပါ​တယ်။

ကိုး​ကား[ပြင်​ဆင်​ရန်​]