語料庫的建置與台灣客家語VP研究


年度:96年
作者:謝杰雄
畢業學校:國立新竹教育大學
畢業系所:臺灣語言與語文教育研究所
畢業年月:95.6
獎助金額(萬元):5

本論文以建置一個單機型語料庫為主,做為嘗試規劃和發展一個WEB語料庫的基礎。 第一章緒論,說明本研究的動機、目的和方法,說明語料的範圍和來源。本研究的目的在透過對客家語語料的分析,以面向語料庫加工處理為目標導向,主要目的有以下幾點: 1.建立一個適切而可操作的台灣客家語語料的分詞標準規範。 2.建立一個可驗證、可操作的台灣客家語語詞歸類操作標準。 3.建立一個台灣客家語「詞類劃分體系」與「詞類標記」的標記,以進行語料庫的加工工作。 4.分析台灣客家語的「短語結構」,並對各種結構予以「標記」,用以標記語料庫中的客家語語料的句法信息。 本論文則進一步利用該語料庫針對客家語的動詞和動詞短語,透過分析與考察、以呈現客家語動詞短語內部和外部的結構。我們總計分析了總計602326個漢字的台灣客家語語料,其中432969個漢字,全部做了詞類標記,另162347個漢字的語料,我們做了結構分析。 第二章 文獻探討,說明有關客家語在構詞法、短語、詞類體系等三方面前人研究的成果與值得借鑒之處。 第三章 「T3」語料庫的建置與設計,說明設計該語料庫的緣由,語料的取樣原則和方法,語料的整理與存儲形式。 第四章 語料的分詞規範與說明,本章說明我們的分詞方法和定義,提出一個規範來作為操作的標準,並具體舉例說明切分的原則。 第五章 客家語詞類劃分與標記說明,本章說明劃分客家語的基本詞類為十八類,並為每一詞類建立詞類標記符號與示例,我們劃分客家語的詞計十八個基本詞類,分別為:名詞(/nn)、時間詞(/nt)、方位詞(/lc)、處所詞(/si)、動詞(/vv)、形容詞(/jj)、副詞(/rb)、數詞(/cd)、介詞(/pa)、感嘆詞(/ij)、連接詞(/cc)、擬聲詞(/on)、助詞(/ax)、區別詞(/dis)、量詞(/m)、語氣詞(/sf)、狀態詞(/zht)、代詞(/pn)。而基於標記的需要,對「名詞」劃分出「專有名詞(nr)」;對「數詞」,劃分出「序數詞(/od)」。另對「系動詞」單獨給予標記「/ vs」;領屬標記「介」單獨給予標記「/ kai」;外來語(_fw)、成語(_id);標點符號(/pu)等,總計我們採取了25個標記符號。同時提出每一詞類鑑別工作守則,做為標記時的操作標準。 第六章 客家語短語結構分類與標記說明,本章說明劃分客家語的短語為二十二種類型,並為每一短語建立短語標記符號與示例。短語類型及標記符號如下: 主謂短語(cp)、述賓短語(vp)、述補短語(vp)、連動短語(vp)、狀中短語(vp)、聯合短語(vp)、附加短語(vp)、聯合短語(np)、方位短語(np)、數量短語(np)、同位短語(np)、定中短語(np)、介(kai》字短語(np)、時間短語(np)、處所短語(np)、狀中短語(jp)、聯合短語(jp)、介(kai】字短語(jp)、形補短語(jp)、比況結構(jp)、介詞短語(pp)、副詞短語(rp)、 第七章 建立台灣客家語的剖析樹語料庫,本章說明採取Dotted Tag的方式,把客家語的語法單位分為「語素、詞、短語、子句、句子」五級單位,設計T3語料庫編輯程式和T3lan檢索軟體,透過對客家語的詞、短語、句子的層次標記,建立剖析樹語料庫(treebank)。 第八章 「T3」語料庫語料統計與分析,本章針對已建置完成的語料庫語料統計與分析各詞類和短語的使用頻率。經過現有的語料的分析,我們一共得到1299個單音節動詞,而就詞類統計的結果,名詞佔最大一部份,有64.43%強,其次是動詞佔20.43%,兩者合計就佔去了84.86%強,再次是形容詞佔7.91%,其他各類詞僅佔非常小的比例。另針對短語加以統計結果,客家語的使用者,主要使用的是「動詞性短語」,佔52.74%,其中又以述賓(vo)、述補(vc)、狀中(zd)和附加(fg)為主,連動和聯合短語相對偏低。 第九章 客家語動詞研究,本章說明抽取語料庫中所有客家語的動詞進行統計與分析的結果。就數量而言,客家語動詞是雙音節為主,但單音節詞動詞的使用總頻率卻遠高於雙音節動詞。雙音動詞中又以述賓式和述補式最為普遍。另就文本分析的結果,客家語有56個核心動詞,其中與現代華語不同的計23個:「講1、食1、分1、無、喊、愛1、係、知、行、噭、著1、轉1、走1、驚、徛、落、尋、loi53、做3、愁、、囥、嫽」,佔全部核心動詞的41.1%。這23個與現代華語不同的核心動詞總使用詞次為7850次,佔56個核心動詞總使用詞次的44.58%,高頻的現象,顯示這是核心中的核心,相對的穩定性也非常高。 第十章 動詞短語(vp)的結構與關係判定,本章集中討論有關客家語的動詞短語(VP)的結構和結構關係的判定問題,歸納出台灣客家語各種動詞短語(VP)的類型,並以客家語的「分」為例,探討客家語PP VP VP序列切分的規則。我們就可以判定: (1) 若後一個VP可以和「分」字組合,整個結構是向右切分,構成 a、(PP )模式 (2) 若後一個VP不能和「分」字組合,整個結構是向左切分,構成 b、( VP)模式 (3) 若按a、(PP )模式切分,兩項VP之間可以是述補、聯合、連動三種結構關係,而述補和聯合關係都有嚴格的限制條件。 (4) 若按b、( VP)模式切分,整個結構可能是聯合或連動關係,但都有許多限制性條件。 第十一章 結語,透過這個語料庫的建置,我們找出了1299個客家語的單音節動詞;詞類統計結果,名詞佔最大一部份,有64.43%強,其次是動詞佔20.43%;客家語的使用者,主要使用的是「動詞性短語」,佔52.74%,其中又以述賓(vo)、述補(vc)、狀中(zd)和附加(fg)為主;而客家語動詞是雙音節為主,但單音節詞動詞的使用總頻率卻遠高於雙音節動詞;同時我們描述了客家語VP的基本結構和分布面貌,並以PP VP VP的組合為例,考察被動式的「分」字和VP組合的各種條件限制。

相關附件