文字部件為本的語料分析：一個子字詞層次的中文語料庫工具

Yongfu Liao; 廖永賦

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507

標題:	文字部件為本的語料分析：一個子字詞層次的中文語料庫工具 Glyph-based Corpus Analysis: A Toolkit for Sub-character Analysis of Chinese Corpora
作者:	Yongfu Liao 廖永賦
指導教授:	謝舒凱(Shu-Kai Hsieh)
關鍵字:	語料庫工具,書寫系統,漢字,部件,語料庫語言學, corpus toolkit,writing system,Chinese character,character components,corpus linguistics,
出版年 :	2022
學位:	碩士
摘要:	中文書寫系統在世界書寫系統中具有獨特的地位，因為絕大多數的漢字為語素文字 (logogram)。因此，漢字本身即攜帶語義訊息，而不像許多其他書寫系統需透過拼音對應至詞彙來攜帶語意訊息。此外，漢字通常可以被分解成更小的元素，這些元素常攜帶著與該漢字相關的語意和發音。然而，由於漢字的編碼方式 (encoding)，電腦使用者不容易取得這些豐富的資訊——一個漢字對應到電腦中的一個編碼 (code point)，這讓使用者無法進一步取得漢字的內部結構訊息，因為編碼本身並不會記錄這些資訊。例如，中文使用者會知道，「淋」和「霖」這兩個字的發音相同，因為它們有共同的部件「林」。但是我們無法從「淋」和「霖」的編碼中取得這個共同的部件——在 Unicode 中，「淋」與「霖」分別對應到 U+6DCB 與 U+9716，但這些編碼並無法表徵這兩個字具有關聯的事實。面對這個局限，我們開發了一個可分析子字詞層次的中文語料庫工具。這個語料庫工具讓使用者能夠取得漢字豐富的部件資訊 (包含部首與非部首)，例如，這讓使用者可以根據漢字共有的部件進行檢索 (舉例來說，透過共同部件「林」，可以取得「淋」、「霖」、「琳」、「箖」與「惏」)，並且讓使用者能夠透過這類訊息來進行語料的量化分析。除了語料庫工具之外，我們還進行了一項個案研究，以透過實徵資料驗證子字詞層次的資訊是否有用，並同時探索此階層與更高階層的語意關聯。結果顯示，某些特定的漢字部首語義訊息與詞彙的語義訊息具有顯著的關聯，然而多數的部首與詞彙類型並無明確的對映關係。論文最後，我們指出了漢字內部的高度遞迴結構對於當前研究的一些影響，並討論了解決相關困境的潛在可能。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507
DOI:	10.6342/NTU202200369
全文授權:	同意授權(全球公開)
顯示於系所單位：	語言學研究所

文件中的檔案：

檔案	大小	格式
U0001-0802202212352300.pdf	1.68 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。