以資料探勘理論自動解決客語多音字歧異問題及其應用之研究


年度:101年

作者:黃豐隆

獎助金額(萬元):15

1.1 研究動機

近年來大家越來越重視方言的問題,因此方言教學與認證的資訊越來越多,又因為網路的盛行,因此許多單位紛紛把教學資源建立成網站,但是以閩南語居多,例如互動功能的有聲詞典網站或線上語音合成系統,而客語教學以靜態的文章居多,較具有公信力的則以為主。我們的語音合成系統目的是讓使用者自行輸入中文文句,進而轉換出對應的客語詞及發音,合成出流利且自然的語音,可以讓原本不會客語的使用者做客語的語言學習。

1.2 數位學習簡介

數位學習(E-Learning)是指經由數位媒介,例如網路或多媒體來進行學習,可以是很正式的學習,例如學業上的課程,也可以是很輕鬆的學習,例如專長興趣的課程。透過網際網路,即時傳遞各種資訊和知識,E-Learning的E除了代表「Electronic電子的」,同時也包含了下列的其它意涵[26]:

1.3 研究方向

本研究的重點放在客語多音字的判斷上。從國語文句中萃取多音字特徵,使用資料探勘(Data Mining)的方法,分別以C4.5決策樹(Decision tree)、貝氏網路分類器、CART決策樹以及SVM分類器預估多音字的類型。

第二章 多音字介紹及研究方法

2.1 客語多音字介紹

在國語中,常常會遇到一些多音字的例子,例如「隊長」的長這時發音做ㄓ ㄤˇ,而「長度」的長則發音為ㄔㄤˊ。而客語中同樣也會發生類似的情況,有的是國語發音和客語發音都含有多音字的現象,例如「感覺」和「睡覺」的「覺」這個字,國語發音分別為「ㄐㄩㄝˊ」和「ㄐㄧㄠˋ」,客語發音則為「gog˙」和「gau」。有的則是國語發音皆一致,但是客語發音有多音字的情形,例如「屋頂」和「頂天立地」的頂這個字,國語發音皆為「ㄉㄧㄥˇ」,客語發音則分別為「dangˋ」和「dinˋ」。

2.2 監督式與非監督式方法

監督式學習是一個機器學習中的技巧,可以由訓練資料中學到或建立一個模型,並依此模型推測新的資料。訓練資料是由輸入物件和預期輸出所組成。函數的輸出可以是一個連續的值(稱為迴歸分析),或是預測一個「分類」。

非監督式學習則不需要預先定義好的分類以及標記好的資料,不針對任何屬性學習及設計模型。「分群」就是屬於非監督式的學習,目的在於具及高相似性的資料,使得群體與群體之間產生較低的相似度。有別於監督式學習網路,無監督式學習網路在學習時並不知道其分群結果是否正確,亦即沒有告訴它何種學習是正確的,當學習完畢並經測試後,也可以將之應用到新的資料上。

2.3 貝氏網路分類器

貝氏網路是以貝氏定理為基礎所發展出來的理論,是一種機率圖型模型,能將特定領域中的不確定性組合成模型,以供推論與診斷之用,利用事件發生的機率來推測未知資料的類別。由於機率的計算是可隨著已知樣本的增加而逐次調整的,在新樣本加入時只需局部調整某些機率值,即可得到新的分類模型,其分類模型的機動性相當高,在資料不斷增加的情況下,可以得到較好的分類效能。

2.4 C4.5決策樹與CART決策樹

決策樹是一個預測模型,用來處理類別型或連續型變數的分類預測問題,屬於監督式的學習方法,採用自頂端而下的貪婪演算法(Greedy Algorithm)。它代表的是對象屬性與對象值之間的一種映射關係,主幹是類似流程圖的樹架構,每個內部節點代表一個測試屬性,分支代表一個可能的測試輸出結果,最底層的樹葉節點則代表不同分類的類別標記。

CART(Classification and Regression Trees) 演算法是建構決策樹時最常用的演算法之一,1984年布里曼 (L. Brieman)與其同僚發表這種方法,是一種二元(binary)分割的方法。

第三章 實驗分析與結果

我們建置了一個線上客語語音合成系統,開發環境與使用之軟體如表所示。

3.1 資料庫

Database 含有haka2資料表是國客語對照詞典,allspell2資料表是客語四縣腔單字讀音表,allsealand2資料表是客語海陸腔單字讀音表,multiwavname資料表是四縣腔客語詞與其音檔檔名的對照表,sl_multiwavname資料表是海陸腔客語詞與其音檔檔名的對照表。

3.2 文句分析

本系統支援的輸入為國語中文文句。假設使用者輸入一句中文文句「中興大學建國百年畢業典禮即將於六月舉行」,這個文句先送入中文斷詞器做斷詞與詞性標記,斷完詞的結果為:「中興大學 建國 百年 畢業典禮 即將 於 六月 舉行」,共有8個中文詞,詞性串列為:「Nc,Nc,Nd,Na,D,P,Nd,Vc」。

把斷出的中文詞各自到國客語對照詞典查出對應的客語詞並做連音變調,像這句中的「即將」所對應的客語詞「臨將」,此時系統會列出所有找到的客語詞。若在國客語對照詞典中找不到詞,可能的原因有:

(1) 國語斷詞的輸出詞太長,客語詞典中只有此詞的部分資訊。舉個簡單的例子,本系統的中文斷詞器會把「中興大學」當成一個詞輸出,但是在客語詞典中,「中興」與「大學」卻是兩個詞,造成找不到正確的對應客語詞,且無法使用客語詞的音檔。當這種情況發生時,我們把長度三個字以上的詞取出,使用國客語對照詞典中的國語詞欄位,用長詞優先斷詞,把此詞拆成較短的詞,即可把中文詞「中興大學 」轉成對應的客語詞「中興」「大學」。

(2) 客語詞典中沒有此國語詞的資訊。此時只能把此國語詞拆成單字,去查找單字拼音表,找出單字的讀音。

(3)上述過程可以簡化,找出客語詞之後,把客語詞列出,如:「中興大學 建國 百年 畢業典禮 臨將 於 六月 舉行」,並且同時列出這些客語詞的客語讀音,其中「中興大學」的「中」已經變調過了。

3.3實驗方法

進行多音字實驗前需要標記訓練語料,我們所使用的語料是Chinese GigaWord語料庫,來源是由許多個單位收集新聞語料而來,並且由Linguistic Data Consortium發行,授權讓人取得使用。目前我們所使用的版本為2007年所發行的第三版,其新聞語料主要有以下三個來源:Central News Agency of Taiwan、 Xinhua News Agency of Beijing和Zaobao Newspaper of Singapore。

從多音字的目標詞的詞性組合開始實驗,且慢慢增加特徵數,從前一詞、後一詞與目標詞的詞性組合,前二詞、後二詞與目標詞的詞性組合,前三詞、後三詞與目標詞的詞長詞性組合…等。總共實驗了以下特徵:目標詞與後一詞可以生成的詞性、目標詞與前一詞可以生成的詞性、目標詞與前一詞跟後一詞可以生成的詞性、目標詞前第一詞詞性、目標詞前第二詞詞性、目標詞前第三詞詞性、目標詞後第一詞詞性、目標詞後第二詞詞性、目標詞後第三詞詞性、目標詞詞性。以例子「我 今天 早上 去 學校 差點 遲到」解說,在「差點」這詞裡面含有多音字「差」:

3.4實驗的結果

我們依序將特徵從目標詞性開始,慢慢增加特徵的數目,內部測試、外部測試、訓練語料與測試語料一起測試(全部當訓練)、訓練語料與測試語料一起測試(取66%當訓練語料,其餘當測試語料)這四種測試是最終的實驗結果,結果發現,不同多音字分類器正確率最高的特徵組合幾乎皆是採用C4.5演算法,且選取特徵為「前三後三詞性、目標詞與後一詞可以生成的語法類別、目標詞與前一詞可以生成的語法類別、目標詞與前一詞跟後一詞可以生成的語法類別、目標詞性」的時候;只有在「行」這個字時,是CART演算法的正確率較佳,不過跟C4.5演算法的正確率相去不遠。

本計劃已分析這六個客語多音字實驗的數據,惟本結案報告只列出多音字「行」與「調」二字之實驗數據。其中表格上層的I.內部測試、II.外部測試、III.訓練語料與測試語料一起測試(全部當訓練) 、IV.訓練語料與測試語料一起測試(取66%當訓練語料,其餘當測試語料)這四個實驗使用特徵為「目標詞前第一詞詞性、目標詞前第二詞詞性、目標詞前第三詞詞性、目標詞後第一詞詞性、目標詞後第二詞詞性、目標詞後第三詞詞性、目標詞與後一詞可以生成的語法類別、目標詞與前一詞可以生成的語法類別、目標詞與前一詞跟後一詞可以生成的語法類別、目標詞性」。

第四章 結論

本研究的重點係在客語多音字的語義岐異上面,我們從國語文句中萃取多音字特徵,使用資料探勘(Data Mining)的方法,分別以C4.5決策樹(Decision tree)、貝氏網路分類器、CART決策樹以及SVM分類器預估多音字的類型。

本研究速角步探討網際網路上建置客語語音合成系統,我們的系統包含有三個模組:文句分析、律韻訊息分析與語音合成,並建立相關之語料庫與語音庫。我們錄製客語單字之基本語音合成單元與不同時長之靜音檔,配合韻律參數作為合成之用。為改善所錄製合成單元之能量差異,對所有單元進行能量正規化處理;並處理有多音字的客語詞,接著找出客語詞對應的音檔,並且加入適當的停頓,以提升輸出的語音品質。

語音合成中的串接法合出的客語連續語音,會在遇到入聲字時產生發音急促的現象,本研究將入聲字音檔的長度補足至特定長度,以解決此問題。此外當遇到含有「行」、「調」、「重」、「差」、「易」、「口」這幾個多音字的詞且詞典無此詞的音檔時,則經由多音字分類器模組,根據輸入文句的特徵,選出一個此時發音機率最高的發音,而回傳給系統的語音合成模組。(註:本結案報告只列出「行」與「調」字之實驗結果)

相關附件