中文與客語文句斷詞處理之研究


年度:104年

作者:黃豐隆

獎助金額(萬元):26.3

本研究計劃的主題是「中文與客語文句斷詞處理之研究」,主要針對中文文句翻成客文文句的斷詞處理(Segmentation),包含基礎的客語斷詞語料與國客語對應式語言模型的分析與建置,以及客語斷詞處理。

我們先蒐集客語句子語料,並設計一套工具,以半自動方式對客語句子做斷詞及詞性結果的標記。再利用標記結果訓練出國客語對應式的語言模型,最後應用提出的Mix-Gram分數演算法於斷詞候選序列的選擇。

經過多次不同參數的實驗,中文翻成客文斷詞處理的結果顯示,在嚴重資料稀疏(Data Sparseness)的情況下,本研究方法的正確率達81.41%,目前應有實用的價值。

關鍵詞:中文轉客語斷詞處理、文句分析、語言模型,讀音求取,