ကွန်ပျူတာဘာသာပြန်စနစ်

နိဒါန်း[ပြင်ဆင်ရန်]

ကွန်ပျူတာဘာသာပြန်နည်းစနစ်များကို ကမ္ဘာပေါ်ရှိ နေရာပေါင်းများစွာတွင် ကျယ်ပြန့်စွာ အသုံးပြုနေကြသည်။ နိုင်ငံအသီးသီးရှိ တက္ကသိုလ်များ၊ ပုဂ္ဂလိက အဖွဲ့အစည်းများနှင့် အစိုးရဌာနများက ငွေကြေးအမြောက်အမြား အကုန်ကျခံ သုံးစွဲ၍ အကောင်အထည်ဖော်လျက် ရှိကြသည်။ တစ်ကိုယ်ရေသုံး အိတ်ဆောင် ဘာသာပြန်စက်ငယ်လေးများမှ စစ်မြေပြင်သုံး Smart Phone နည်းပညာများအထိ ရောက်ရှိနေပါသည်။ အမေရိကန်တို့ အာဖကန္နစ္စတန် သို့ ကျူးကျော်တိုက်ခိုက်စဉ်က အဖြစ်အပျက်တစ်ရပ်ကလည်း ဤနည်းပညာ၏ အသုံးဝင်မှုကို ပေါ်လွင်စေခဲ့သည်။ စက်တင်ဘာ ၁၁ ရက် ၂၀⁠၀၁ အမေရိကန်တို့ အာဖကနစ္စတန်ကို တိုက်ခိုက်သိမ်းပိုက်ပြီး နောက်ပိုင်း အာရပ်ဘာသာစကားသည် အဓိကပြဿနာ ဖြစ်ခဲ့သည်။ ကန်တပ်ဖွဲ့ဝင်များနှင့်အတူ လိုက်ပါတာဝန်ထမ်းဆောင်ဖို့ စကားပြန်များခေါ်ယူခဲ့သော်လည်း စစ်ပွဲအတွင်းမို့ လိုက်ပါလိုသူ သိပ်မရှိလှ။ ခေါ်ဆောင်လာသည့် ဘာသာပြန်အတော်များ⁠များလည်း သေနတ်ဆံ၊ဗုံးဆံ ကြောက်၍ ပြန်ပြေးကြသူများနှင့်သာ ပြည့်နေသည်။ အမေရိကန်တို့ ခေါင်းချင်းရိုက်ကုန်ကြသည်။ ဘာသာပြန်တွေ မရှိလို့မဖြစ်။ နောက်ဆုံး ဒီပြဿနာက အမေရိကန် အဆင့်မြင့် ကာကွယ်ရေး သုတေသန အေဂျင်စီ (DARPA) သို့ ရောက်ရှိသွားသည်။ DARPA က အမျိုးသား စံသတ်မှတ်ချက်နှင့် နည်းပညာဆိုင်ရာ အဖွဲ့ကြီး(NIST) သို့ လူအစားထိုး အင်္ဂလိပ်-အာဖကန် ကွန်ပျူတာ ဘာသာပြန်စနစ် တစ်ရပ် အကောင်အထည် ဖော်ပေးရန် ပန်ကြားလေသည်။ သို့နှင့် ကွန်ပျူတာ ဘာသာပြန် လုပ်ငန်းစဉ်မှာ နည်းပညာနယ်ပယ်မှသည် စစ်မြေပြင်သို့ပင် ကျယ်ပြန့်စွာရောက်ရှိလာတော့သည်။

ကွန်ပျူတာဘာသာပြန်စနစ် -- Machine Translation (MT)[ပြင်ဆင်ရန်]

ကွန်ပျူတာဘာသာပြန်စနစ် (MT) ဆိုတာ ဘာလဲ ?[ပြင်ဆင်ရန်]

ဘာသာစကားတစ်ခုမှ အခြားဘာသာစကားတစ်ခုကို ဘာသာပြန်ဆိုရာမှာ လူဘာသာပြန်များ၏နေရာကို အစားထိုးပြီး ကွန်ပျူတာကို ဘာသာပြန်ဆိုခိုင်းခြင်းပင် ဖြစ်ပါတယ်။ လူဘာသာပြန်များကို အစားထိုးမည်ဆိုတာ့ MT က ဘာတွေကောင်းနေပါသလဲ ?

၁။ အလွန် လျင်မြန်မှု ရှိသည်။
၂။ မှတ်သားနိုင်မှုစွမ်းရည် မြင့်မားပါသည်။
၃။ ထို့ကြောင့် ဘာသာပြန်နိုင်စွမ်းအား မြင့်မားပါသည်။
၄။ ဘယ်တော့မှ ပင်ပန်းနွမ်းနယ်သည်ဟု မဆိုပါ။
၅။ ဘယ်တော့မှ ကွန်ပလိန်းမတက်ပါ။

MT ရဲ့ မကောင်းတဲ့အချက်တွေကရော ?[ပြင်ဆင်ရန်]

၁။ လူဘာသာပြန်များလောက် မှန်ကန်မှု မရှိနိုင်ပါ။
၂။ ဘာသာပြန်ဆိုသည့် ပုံစံမျိုးစုံမရရှိနိုင်ပါ။
၃။ သဘာဝကျကျ ပြန်ဆိုနိုင်ခြင်း မရှိပါ။
၄။ လူဘာသာပြန်ကဲ့သို့ ခံစားချက်များထည့်သွင်း ပြန်ဆိုနိုင်ခြင်းမရှိပါ။

MT ကို ဘယ်လိုနေရာမျိုးတွေ/ဘယ်လိုလူမျိုးတွေ အဓိကသုံးမှာလဲ ?[ပြင်ဆင်ရန်]

၁။ လူဘာသာပြန်များ ရရှိဖို့ ခက်ခဲတဲ့ နေရာမျိုးတွေ
၂။ စာရွက်စာတမ်းအရေအတွက်များ⁠များကို အချိန်တို⁠တိုနှင့် ဘာသာပြန်ဖို့ လိုအပ်နေတဲ့ နေရာမျိုးတွေ
၃။ လူဘာသာပြန်များကို ငွေကြေးအမြောက်အမြားသုံးစွဲပြီး ငှားရမ်းခြင်းမပြုနိုင်သည့် နေရာမျိုးတွေ
၄။ အင်္ဂလိပ်စာ (သို့) ခေတ်မီနည်းပညာများကို လေ့လာနေသည့် သူများ
၅။ ဘာသာစကား အခက်အခဲရှိနေသူများ အစရှိသဖြင့် နေရာစုံ ၊ ကဏ္ဍစုံမှာ အသုံးပြုနိုင်ပါတယ်။

ကွန်ပျူတာဘာသာပြန်စနစ်ကို ဘယ်လိုအကောင်အထည်ဖော်လဲ[ပြင်ဆင်ရန်]

ကွန်ပျူတာ ဘာသာပြန်လုပ်ငန်းကို အကောင်အထည်ဖော်ဖို့ နည်းစနစ် မြောက်မြားစွာ ရှိပါတယ်။ အဓိက နည်းစနစ်တချို့ကတော့ အောက်ပါအတိုင်း ဖြစ်ပါတယ်။

က။ အဘိဓာန်ကို အခြေခံထားသည့် နည်းစနစ် (Dictionary-based MT)
ခ။ သဒ္ဒါနည်းလမ်းစည်းကမ်းများအပေါ် အခြေခံထားသည့် နည်းစနစ် (Rule-based MT)
ဂ။ သင်္ချာပုံသေနည်းများဖြင့် ဖြစ်တန်စွမ်းများကို တွက်ထုတ်ဘာသာပြန်ပေးသည့် နည်းစနစ် (Statistical MT)
ဃ။ ဘာသာပြန်နည်းစနစ်များကို ပေါင်းစပ်အသုံးပြုထားသည့် နည်းစနစ် (Hybrid MT)

ကွန်ပျူတာဘာသာပြန်ဆိုမှုလုပ်ငန်းစဉ်၏ အဓိက အခက်အခဲများ[ပြင်ဆင်ရန်]

၁။ စာကြောင်းများ၊ စကားလုံးများ ခွဲခြားစိစစ်ပေးရခြင်း (Word/Sentence Segmentation)

စာကြောင်းခွဲခြားခြင်း[ပြင်ဆင်ရန်]

အင်္ဂလိပ်ဘာသာမှာ စာကြောင်းတစ်ကြောင်းကို Full-stop (.) ဖြင့် ခွဲခြားပါတယ်။
ထိုင်းလို အချို့ဘာသာစကားများမှာ ထိုကဲ့သို့ စာကြောင်းဖြတ် လက္ခဏာ မရှိပါ။
ထိုအတွက် စာကြောင်းခွဲခြားခြင်း လုပ်ငန်းစဉ်များ ဆောင်ရွက်ဖို့ လိုအပ်နေပါတယ်။

စကားလုံးခွဲခြားခြင်း[ပြင်ဆင်ရန်]

အင်္ဂလိပ်ဘာသာမှာ စကားလုံးများကို Space များဖြင့် ခွဲခြားပါတယ်။
မြန်မာလို ဘာသာစကားအချို့မှာ ပုံမှန်အားဖြင့် စကားလုံးများအကြား ခွဲခြားပေးသည့် လက္ခဏာ မရှိပါ။
ထို့ကြောင့် စကားလုံးခွဲခြားခြင်း လုပ်ငန်းစဉ်များ ဆောင်ရွက်ဖို့ လိုအပ်နေပါတယ်။

၂။ စကားလုံး အဓိပ္ပာယ် မျိုးစုံကွဲပြားခြားနားခြင်း (Word sense disambiguation)

စကားလုံးတစ်လုံးဟာ အဓိပ္ပာယ်မျိုးစုံ ရှိနေတာမျိုးဟာ ဘာသာစကားတိုင်းလိုလိုပါပဲ။ ဥပမာ Have ဆိုတဲ့စကားလုံးကို စားတယ်၊ သောက်တယ်၊ ရေချိုးတယ် အစရှိဖြင့် စာကြောင်း အနေအထားများအပေါ် မူတည်ပြီးဘာသာပြန်ဆိုနိုင်ပါတယ်။ အဲဒီတော့ ဒါတွေ့ဒါပြန် ဆိုတာမျိုး လုပ်လို့မရတော့တာ၊ စာကြောင်းရှေ့နောက်ဆက်စပ် လေ့လာရတာမျိုးတွေ လိုအပ်လာပါတယ်။

၃။ ကန့်သတ်ချက်မရှိတဲ့ နာမည်အမျိုးအစားပေါင်းများစွာရှိနေခြင်း (Named entities)

လူနာမည်၊ မြို့ရွာတိုင်းပြည်နာမည်၊ အဖွဲ့အစည်းနာမည် စသည်ဖြင့်နာမည်ပေါင်းများစွာဟာလည်း ဘာသာပြန်လုပ်ငန်းစဉ်ကို များစွာခက်ခဲစေပါတယ်။ စကားလုံးတစ်လုံးတွေ့ရုံနဲ့ နာမည်လား ၊ ရိုး⁠ရိုးအဓိပ္ပာယ်ရှိတဲ့ စကားလုံးလားဆိုတာ ခွဲခြားဖို့ ခက်ခဲတတ်ပါတယ်။ ဥပမာ "ဆိတ်ဖြူ" ဆိုတာ မြို့ရွာနာမည်လား? အဖြူရောင်ရှိတဲ့ ဆိတ်ကိုပြောတာလား? "ဖိုးဆိတ်ဖြူ" ဆိုတဲ့ ကာတွန်းဇတ်ကောင်တောင်ရှိနေပါသေးတယ်။ နောက်အခက်အခဲများကတော့

၄။ ဗန်းစကားများ (Idioms) နဲ့
၅။ သဒ္ဒါတည်ဆောက်ပုံ ကွဲပြားခြားနားမှုများ ပဲဖြစ်ပါတယ်။

လက်ရှိ မြန်မာနိုင်ငံတွင် အကောင်အထည်ဖော်နေမှု အခြေအနေများ[ပြင်ဆင်ရန်]

မြန်မာနိုင်ငံမှာလည်း ဤကွန်ပျူတာဘာသာပြန်စနစ် ကို ကွန်ပျူတာသုံး မြန်မာစာ စနစ်၊ စံနှင့် အသုံးချရေး လုပ်ငန်းအဖွဲ့ (Myanmar Unicode And NLP Research Center) က ၂၀⁠၀၉ ခုနှစ်၊ ဇန်နဝါရီလ ၁ ရက် နေ့မှ စတင်၍ အကောင်အထည်ဖော်လျက်ပြီး RMBT နည်းစနစ်ကို အသုံးပြုထားသည့် ဘာသာပြန်စနစ် စမ်းသပ်အဆင့်-၁ (Beta Version-1) ကို အောက်ပါ links များတွင် အခမဲ့ စမ်းသပ်သုံးစွဲနိုင်ပါတယ်။

http://myanmarnlp.org.mm/ Archived 17 July 2011 at the Wayback Machine.
http://www.e2myanmar.org.mm/Default.aspx Archived 10 April 2012 at the Wayback Machine.

အထက်ပါ RBMT နည်းစနစ်ထက် ပိုမိုကောင်းမွန်သည့် ဘာသာပြန်စနစ် ထပ်မံပေါ်ထွက်လာစေရန် ရည်ရွယ်၍ လက်ရှိတွင် SMT နည်းစနစ်ကို အသုံးပြု၍ ဘာသာပြန်လုပ်ငန်းများကို ဆက်လက်အကောင်အထည်ဖော်လျက်ရှိပြီး မကြာမီ အသုံးပြုနိုင်တော့မည်ဟု မျှော်မှန်းရပါတယ်။ ထို့အပြင် ရန်ကုန်ကွန်ပျူတာတက္ကသိုလ် NLP သုတေသနဌာနမှလည်း ကွန်ပျူတာဘာသာပြန်စနစ်တစ်ရပ်ကို ၎င်းတို့၏ ဝဘ်စာမျက်နှာ

http://www.nlpresearch-ucsy.edu.mm/mtapplication.html Archived 5 August 2018 at the Wayback Machine.

တွင် လူအများအသုံးပြုနိုင်စေရန် လွှင့်တင်ထားသည်ကို တွေ့ရှိရပါတယ်။

ကိုးကား[ပြင်ဆင်ရန်]

http://en.wikipedia.org/wiki/Machine_translation
http://www.statmt.org/
http://www.nist.gov/
Computer Magazine, No.47, March 2011