ကွန်ပျူတာဘာသာပြန်စနစ်

ဝီကီပီးဒီးယား မှ

နိဒါန်း[ပြင်ဆင်ရန်]

ကွန်ပျူတာဘာသာပြန်နည်းစနစ်များကို ကမ္ဘာပေါ်ရှိ နေရာပေါင်းများစွာတွင် ကျယ်ပြန့်စွာ အသုံးပြုနေကြသည်။ နိုင်ငံအသီးသီးရှိ တက္ကသိုလ်များ၊ ပုဂ္ဂလိက အဖွဲ့အစည်းများနှင့် အစိုးရဌာနများက ငွေကြေးအမြောက်အမြား အကုန်ကျခံ သုံးစွဲ၍ အကောင်အထည်ဖော်လျက် ရှိကြသည်။ တစ်ကိုယ်ရေသုံး အိတ်ဆောင် ဘာသာပြန်စက်ငယ်လေးများမှ စစ်မြေပြင်သုံး Smart Phone နည်းပညာများအထိ ရောက်ရှိနေပါသည်။ အမေရိကန်တို့ အာဖကန္နစ္စတန် သို့ ကျူးကျော်တိုက်ခိုက်စဉ်က အဖြစ်အပျက်တစ်ရပ်ကလည်း ဤနည်းပညာ၏ အသုံးဝင်မှုကို ပေါ်လွင်စေခဲ့သည်။ စက်တင်ဘာ ၁၁ ရက် ၂၀⁠၀၁ အမေရိကန်တို့ အာဖကနစ္စတန်ကို တိုက်ခိုက်သိမ်းပိုက်ပြီး နောက်ပိုင်း အာရပ်ဘာသာစကားသည် အဓိကပြဿနာ ဖြစ်ခဲ့သည်။ ကန်တပ်ဖွဲ့ဝင်များနှင့်အတူ လိုက်ပါတာဝန်ထမ်းဆောင်ဖို့ စကားပြန်များခေါ်ယူခဲ့သော်လည်း စစ်ပွဲအတွင်းမို့ လိုက်ပါလိုသူ သိပ်မရှိလှ။ ခေါ်ဆောင်လာသည့် ဘာသာပြန်အတော်များ⁠များလည်း သေနတ်ဆံ၊ဗုံးဆံ ကြောက်၍ ပြန်ပြေးကြသူများနှင့်သာ ပြည့်နေသည်။ အမေရိကန်တို့ ခေါင်းချင်းရိုက်ကုန်ကြသည်။ ဘာသာပြန်တွေ မရှိလို့မဖြစ်။ နောက်ဆုံး ဒီပြဿနာက အမေရိကန် အဆင့်မြင့် ကာကွယ်ရေး သုတေသန အေဂျင်စီ (DARPA) သို့ ရောက်ရှိသွားသည်။ DARPA က အမျိုးသား စံသတ်မှတ်ချက်နှင့် နည်းပညာဆိုင်ရာ အဖွဲ့ကြီး(NIST) သို့ လူအစားထိုး အင်္ဂလိပ်-အာဖကန် ကွန်ပျူတာ ဘာသာပြန်စနစ် တစ်ရပ် အကောင်အထည် ဖော်ပေးရန် ပန်ကြားလေသည်။ သို့နှင့် ကွန်ပျူတာ ဘာသာပြန် လုပ်ငန်းစဉ်မှာ နည်းပညာနယ်ပယ်မှသည် စစ်မြေပြင်သို့ပင် ကျယ်ပြန့်စွာရောက်ရှိလာတော့သည်။

ကွန်ပျူတာဘာသာပြန်စနစ် -- Machine Translation (MT)[ပြင်ဆင်ရန်]

ကွန်ပျူတာဘာသာပြန်စနစ် (MT) ဆိုတာ ဘာလဲ ?[ပြင်ဆင်ရန်]

ဘာသာစကားတစ်ခုမှ အခြားဘာသာစကားတစ်ခုကို ဘာသာပြန်ဆိုရာမှာ လူဘာသာပြန်များ၏နေရာကို အစားထိုးပြီး ကွန်ပျူတာကို ဘာသာပြန်ဆိုခိုင်းခြင်းပင် ဖြစ်ပါတယ်။ လူဘာသာပြန်များကို အစားထိုးမည်ဆိုတာ့ MT က ဘာတွေကောင်းနေပါသလဲ ?

  • ၁။ အလွန် လျင်မြန်မှု ရှိသည်။
  • ၂။ မှတ်သားနိုင်မှုစွမ်းရည် မြင့်မားပါသည်။
  • ၃။ ထို့ကြောင့် ဘာသာပြန်နိုင်စွမ်းအား မြင့်မားပါသည်။
  • ၄။ ဘယ်တော့မှ ပင်ပန်းနွမ်းနယ်သည်ဟု မဆိုပါ။
  • ၅။ ဘယ်တော့မှ ကွန်ပလိန်းမတက်ပါ။

MT ရဲ့ မကောင်းတဲ့အချက်တွေကရော ?[ပြင်ဆင်ရန်]

  • ၁။ လူဘာသာပြန်များလောက် မှန်ကန်မှု မရှိနိုင်ပါ။
  • ၂။ ဘာသာပြန်ဆိုသည့် ပုံစံမျိုးစုံမရရှိနိုင်ပါ။
  • ၃။ သဘာဝကျကျ ပြန်ဆိုနိုင်ခြင်း မရှိပါ။
  • ၄။ လူဘာသာပြန်ကဲ့သို့ ခံစားချက်များထည့်သွင်း ပြန်ဆိုနိုင်ခြင်းမရှိပါ။

MT ကို ဘယ်လိုနေရာမျိုးတွေ/ဘယ်လိုလူမျိုးတွေ အဓိကသုံးမှာလဲ ?[ပြင်ဆင်ရန်]

  • ၁။ လူဘာသာပြန်များ ရရှိဖို့ ခက်ခဲတဲ့ နေရာမျိုးတွေ
  • ၂။ စာရွက်စာတမ်းအရေအတွက်များ⁠များကို အချိန်တို⁠တိုနှင့် ဘာသာပြန်ဖို့ လိုအပ်နေတဲ့ နေရာမျိုးတွေ
  • ၃။ လူဘာသာပြန်များကို ငွေကြေးအမြောက်အမြားသုံးစွဲပြီး ငှားရမ်းခြင်းမပြုနိုင်သည့် နေရာမျိုးတွေ
  • ၄။ အင်္ဂလိပ်စာ (သို့) ခေတ်မီနည်းပညာများကို လေ့လာနေသည့် သူများ
  • ၅။ ဘာသာစကား အခက်အခဲရှိနေသူများ အစရှိသဖြင့် နေရာစုံ ၊ ကဏ္ဍစုံမှာ အသုံးပြုနိုင်ပါတယ်။

ကွန်ပျူတာဘာသာပြန်စနစ်ကို ဘယ်လိုအကောင်အထည်ဖော်လဲ[ပြင်ဆင်ရန်]

ကွန်ပျူတာ ဘာသာပြန်လုပ်ငန်းကို အကောင်အထည်ဖော်ဖို့ နည်းစနစ် မြောက်မြားစွာ ရှိပါတယ်။ အဓိက နည်းစနစ်တချို့ကတော့ အောက်ပါအတိုင်း ဖြစ်ပါတယ်။

  • က။ အဘိဓာန်ကို အခြေခံထားသည့် နည်းစနစ် (Dictionary-based MT)
  • ခ။ သဒ္ဒါနည်းလမ်းစည်းကမ်းများအပေါ် အခြေခံထားသည့် နည်းစနစ် (Rule-based MT)
  • ဂ။ သင်္ချာပုံသေနည်းများဖြင့် ဖြစ်တန်စွမ်းများကို တွက်ထုတ်ဘာသာပြန်ပေးသည့် နည်းစနစ် (Statistical MT)
  • ဃ။ ဘာသာပြန်နည်းစနစ်များကို ပေါင်းစပ်အသုံးပြုထားသည့် နည်းစနစ် (Hybrid MT)

ကွန်ပျူတာဘာသာပြန်ဆိုမှုလုပ်ငန်းစဉ်၏ အဓိက အခက်အခဲများ[ပြင်ဆင်ရန်]

  • ၁။ စာကြောင်းများ၊ စကားလုံးများ ခွဲခြားစိစစ်ပေးရခြင်း (Word/Sentence Segmentation)

စာကြောင်းခွဲခြားခြင်း[ပြင်ဆင်ရန်]

  1. အင်္ဂလိပ်ဘာသာမှာ စာကြောင်းတစ်ကြောင်းကို Full-stop (.) ဖြင့် ခွဲခြားပါတယ်။
  2. ထိုင်းလို အချို့ဘာသာစကားများမှာ ထိုကဲ့သို့ စာကြောင်းဖြတ် လက္ခဏာ မရှိပါ။
  3. ထိုအတွက် စာကြောင်းခွဲခြားခြင်း လုပ်ငန်းစဉ်များ ဆောင်ရွက်ဖို့ လိုအပ်နေပါတယ်။

စကားလုံးခွဲခြားခြင်း[ပြင်ဆင်ရန်]

  1. အင်္ဂလိပ်ဘာသာမှာ စကားလုံးများကို Space များဖြင့် ခွဲခြားပါတယ်။
  2. မြန်မာလို ဘာသာစကားအချို့မှာ ပုံမှန်အားဖြင့် စကားလုံးများအကြား ခွဲခြားပေးသည့် လက္ခဏာ မရှိပါ။
  3. ထို့ကြောင့် စကားလုံးခွဲခြားခြင်း လုပ်ငန်းစဉ်များ ဆောင်ရွက်ဖို့ လိုအပ်နေပါတယ်။
  • ၂။ စကားလုံး အဓိပ္ပာယ် မျိုးစုံကွဲပြားခြားနားခြင်း (Word sense disambiguation)

စကားလုံးတစ်လုံးဟာ အဓိပ္ပာယ်မျိုးစုံ ရှိနေတာမျိုးဟာ ဘာသာစကားတိုင်းလိုလိုပါပဲ။ ဥပမာ Have ဆိုတဲ့စကားလုံးကို စားတယ်၊ သောက်တယ်၊ ရေချိုးတယ် အစရှိဖြင့် စာကြောင်း အနေအထားများအပေါ် မူတည်ပြီးဘာသာပြန်ဆိုနိုင်ပါတယ်။ အဲဒီတော့ ဒါတွေ့ဒါပြန် ဆိုတာမျိုး လုပ်လို့မရတော့တာ၊ စာကြောင်းရှေ့နောက်ဆက်စပ် လေ့လာရတာမျိုးတွေ လိုအပ်လာပါတယ်။

  • ၃။ ကန့်သတ်ချက်မရှိတဲ့ နာမည်အမျိုးအစားပေါင်းများစွာရှိနေခြင်း (Named entities)

လူနာမည်၊ မြို့ရွာတိုင်းပြည်နာမည်၊ အဖွဲ့အစည်းနာမည် စသည်ဖြင့်နာမည်ပေါင်းများစွာဟာလည်း ဘာသာပြန်လုပ်ငန်းစဉ်ကို များစွာခက်ခဲစေပါတယ်။ စကားလုံးတစ်လုံးတွေ့ရုံနဲ့ နာမည်လား ၊ ရိုး⁠ရိုးအဓိပ္ပာယ်ရှိတဲ့ စကားလုံးလားဆိုတာ ခွဲခြားဖို့ ခက်ခဲတတ်ပါတယ်။ ဥပမာ "ဆိတ်ဖြူ" ဆိုတာ မြို့ရွာနာမည်လား? အဖြူရောင်ရှိတဲ့ ဆိတ်ကိုပြောတာလား? "ဖိုးဆိတ်ဖြူ" ဆိုတဲ့ ကာတွန်းဇတ်ကောင်တောင်ရှိနေပါသေးတယ်။ နောက်အခက်အခဲများကတော့

  • ၄။ ဗန်းစကားများ (Idioms) နဲ့
  • ၅။ သဒ္ဒါတည်ဆောက်ပုံ ကွဲပြားခြားနားမှုများ ပဲဖြစ်ပါတယ်။

လက်ရှိ မြန်မာနိုင်ငံတွင် အကောင်အထည်ဖော်နေမှု အခြေအနေများ[ပြင်ဆင်ရန်]

မြန်မာနိုင်ငံမှာလည်း ဤကွန်ပျူတာဘာသာပြန်စနစ် ကို ကွန်ပျူတာသုံး မြန်မာစာ စနစ်၊ စံနှင့် အသုံးချရေး လုပ်ငန်းအဖွဲ့ (Myanmar Unicode And NLP Research Center) က ၂၀⁠၀၉ ခုနှစ်၊ ဇန်နဝါရီလ ၁ ရက် နေ့မှ စတင်၍ အကောင်အထည်ဖော်လျက်ပြီး RMBT နည်းစနစ်ကို အသုံးပြုထားသည့် ဘာသာပြန်စနစ် စမ်းသပ်အဆင့်-၁ (Beta Version-1) ကို အောက်ပါ links များတွင် အခမဲ့ စမ်းသပ်သုံးစွဲနိုင်ပါတယ်။

အထက်ပါ RBMT နည်းစနစ်ထက် ပိုမိုကောင်းမွန်သည့် ဘာသာပြန်စနစ် ထပ်မံပေါ်ထွက်လာစေရန် ရည်ရွယ်၍ လက်ရှိတွင် SMT နည်းစနစ်ကို အသုံးပြု၍ ဘာသာပြန်လုပ်ငန်းများကို ဆက်လက်အကောင်အထည်ဖော်လျက်ရှိပြီး မကြာမီ အသုံးပြုနိုင်တော့မည်ဟု မျှော်မှန်းရပါတယ်။ ထို့အပြင် ရန်ကုန်ကွန်ပျူတာတက္ကသိုလ် NLP သုတေသနဌာနမှလည်း ကွန်ပျူတာဘာသာပြန်စနစ်တစ်ရပ်ကို ၎င်းတို့၏ ဝဘ်စာမျက်နှာ

တွင် လူအများအသုံးပြုနိုင်စေရန် လွှင့်တင်ထားသည်ကို တွေ့ရှိရပါတယ်။

ကိုးကား[ပြင်ဆင်ရန်]