အသုံးပြုသူ:Saung Aye Mya Soe/sandbox

ဝီကီပီးဒီးယား မှ

Corpus (စာစု၊ စကားစု၊ အသံများအား စုထားခြင်း ) [ပြင်ဆင်ရန်]

         Corpus ဆိုသည်မှာ စာများ (သို့မဟုတ်) အသံများကို စုစည်းထားခြင်းကို ခေါ်ဆိုခြင်းဖြစ်သည်။ စာများစုစည်းထားသော အစုအဝေးကို စာစု ( Text corpus) ဟုခေါ်၍ အသံများ စုစည်းထားသော အစုအဝေးကို (Speech Corpus ) အသံများ အစုအဝေးဟုခေါ်သည်။[၁]

“ Corpus “ ဟုခေါ်ခြင်း [ပြင်ဆင်ရန်]

         Corpus ဟူသော အသုံးအနှုန်းသည် လက်တင်ဘာသာမှ ယူထားခြင်းဖြစ်ပြီး အထူးပြုစာများ၏ ခန္ဓာကိုယ် (အဓိကအရေးပါသော ဒေတာ အစုအဝေး) ဟု အဓိပ္ပါယ်ရသည်။ အရေအတွက် တစ်ခုထက်ပိုသော Corpus များကို Corpora ဟုခေါ်သည်။[၂]

Corpora အမျိုးအစားများ[ပြင်ဆင်ရန်]

  • (၁) ယေဘုယျအားဖြင့် သုံးသော Corpora (General Corpora )
  • (၂) အထူးပြုထားသော Corpora (Specialized Corpora)
  • (၃) သမိုင်းစဉ်အရ ဖွံ့ဖြိုးတိုးတက်လာသော Corpora (Historical or Diachronic Corpora)
  • (၄) နယ်ပယ်ရေးဆိုင်ရာ Corpora (Regional Corpora)
  • (၅) သင်ကြားရေးဆိုင်ရာ Corpora (Learner’s Corpora)
  • (၆) ဘာသာစကားမျိုးစုံဆိုင်ရာ Corpora (Multilingual Corpora)
  • (၇) နှိုင်းယှဉ်ဖော်ပြထားသော Corpora ( Comparable Corpora)
  • (၈) မှတ်ချက်ထည့်သွင်းထားသော Corpora (Annotated Corpora)
  • (၉) မှတ်ချက်မထည့်သွင်းထားသော Corpora (Plain Text Corpora)
  • (၁၀) ပြိုင်တူထည့်သွင်း ဖေါ်ပြထားသော Corpora (Parallel Corpora)
  • (၁၁) အသံများဖြင့် တည်ဆောက်ထားသော Corpora (Speech Corpora) စသည်တို့ဖြင့် အမျိုးအစား ခွဲခြားထားသည်။[၃]

Corpus အရွယ်အစားနှင့် ဒေတာစုဆောင်းခြင်း [ပြင်ဆင်ရန်]

         Corpus တွင် ဒေတာအများဆုံး မည်မျှပါဝင်ရမည်ဟု မသတ်မှတ်ထားပါ။ ဒေတာ များများပါလေ ပို၍ တန်ဖိုးရှိ၍ ပို၍ အသုံးဝင်လေဖြစ်သည်။ Corpus တွင်ပါဝင်သော ဒေတာများ (စာများ) ကို အကြမ်းအားဖြင့် ဒေတာများ (စာများ) စုဆောင်းခြင်း (Raw Data) (သို့မဟုတ်) ပြင်ဆင်ပြီးသော ဒေတာများ (စာများ) (Processed Data) စသည့် နည်းစနစ်ကို အသုံးပြုပြီး စုဆောင်းကြသည်။ Corpus တွင် စုဆောင်းထားသော ဒေတာများကို အွန်လိုင်းမှ သတင်းစာများ ၊ ဂျာနယ်များနှင့် အခြားသော စာပေတို့မှ ရရှိနိုင်သည်။

မှတ်ချက်ထည့်သွင်းခြင်း [ပြင်ဆင်ရန်]

         Corpora များကို သုတေသန အတွက်သော်လည်းကောင်း၊ အခြားဆိုင်ရာကိစ္စရပ်များအတွက် အသုံးပြုရာတွင် ပိုမိုလွယ်ကူစေရန် မှတ်ချက်များထည့်သွင်းပေးကြသည်။
  • (၁) ဝါစင်္ဂနည်းဖြင့် မှတ်ချက်ထည့်သွင်းခြင်း ( Part Of Speech Tagging )
  • (၂) ( Lemmatization )
  • (၃) ( Semantics Annotation )
  • (၄) ( Pragmatic Annotation )
  • (၅) Discoursal text-linguistic annotation
  • (၆) အသံနှင့်ဆိုင်သော မှတ်ချက်ထည့်သွင်းခြင်း ( Phonetic or Prosody annotation )
  • (၇) စကားလုံးဖွဲ့စည်းတည်ဆောက်မှုအရ မှတ်ချက်ထည့်သွင်းခြင်း ( Morphological annotation )
  • (၈) ( Stylistic Annotation) အစရှိသည့် နည်းများဖြင့် ထည့်သွင်းဖော်ပြကြသည်။[၄]

အသုံးပြုခြင်း [ပြင်ဆင်ရန်]

         Corpus များကို စာရင်းအင်း နည်းပညာအတွက် လေ့လာခြင်း၊ ဘာသာဗေဒဆိုင်ရာလေ့လာမှုများ (စကားလုံးပုံစံလေ့လာမှု၊ ဝါစင်္ကလေ့လာမှု၊ စာကြောင်းဖွဲ့စည်းတည်ဆောက်ပု့လေ့လာခြင်း နှင့် စာပေများ အဆင့်ဆင့်ပြောင်းလဲမှုလေ့လာခြင်း) ၊ NLP နှင့် ဆိုင်သော လုပ်ငန်းလုပ်ကိုင်နေသူ ၊ သုတေသနပြုလုပ်နေသူများ အတွက် တန်ဖိုးမဖြတ်နိုင်သော စာစု၊ စကားစုများပဲဖြစ်ပါသည်။
  1. [၁], additional text.
  2. [၂], additional text.
  3. [၃], additional text.
  4. [၄], additional text.