世界第一臺灣客語語料庫建置 結合AI永續保存客語


  客語結合AI不是夢!客家委員會主任委員今(29)日在「建置臺灣客語語料庫」第一階段成果發表會上表示,透過AI客語語料庫的建置後,將成功保存客家文化、讓大家更能認識客語的全貌,李主委也指出,臺灣目前是全世界第一個官方帶頭建置客語語料庫的國家,希望建置完成後能讓客語不再流失,進而朝世界強勢語言邁進。

  李主委表示,臺灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,因此為了讓客語永續傳承、保存珍貴語料,客委會自106年底開始建置臺灣客語語料庫,將文字及語音數位化,創建臺灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通。

  今日在第一階段成果發表會上,由客語語料庫的團隊主持人政大英語系教授賴惠玲、資訊科學系教授劉吉軒及新聞系教授劉慧雯等,向大家介紹團隊建置語料庫的進度,賴教授指出,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。

  客委會表示,客語「生語料庫」蒐集自全臺灣客語書寫文本及客語發音的口語內容作為客語語料庫來源,包含電視節目、出版品、田野調查採錄的客語口說、訪談、演講、日常生活對話、耆老說故事等,蒐集回來後,仍須經過客語母語人士轉寫(轉檔)、校訂等多道人工的繁複程序,因此政大團隊號召了各種腔調的客語薪傳師,藉由辦理教育訓練向客語薪傳師說明語料處理的過程與規範,讓參與的薪傳師不僅協助語料處理工作,也能為保存客語盡一份心力。而經轉寫(轉檔)、校訂後的語料,由政大團隊進行專家修訂,給予嚴謹的語言學標記,配合系統建置來回除錯,以利系統機器學習(Machine Learning),如此層層加工的語料才能匯入語料庫供後續使用。

  目前,「臺灣客語語料庫」業已完成書面語料授權筆數316筆出版品、149筆單篇文章,且處理語料庫書面語語料500萬字、口語語料10萬字,並完成語料庫斷詞系統、權威詞控管系統與後臺管理系統初步規劃,另預計於111年底正式上線,隨著社會環境不斷變遷,整體社會已進入數位化時代,高科技與人工智慧的相關智能運用已越來越普及,客委會希望透過建置語料庫,讓客語與時俱進,加快客語進入智能發展的行列,以利未來產製客語的各項加值服務供鄉親使用。

「建置臺灣客語語料庫」第一階段成果發表會1

「建置臺灣客語語料庫」第一階段成果發表會2

「建置臺灣客語語料庫」第一階段成果發表會3

「建置臺灣客語語料庫」第一階段成果發表會4