請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507| 標題: | 文字部件為本的語料分析:一個子字詞層次的中文語料庫工具 Glyph-based Corpus Analysis: A Toolkit for Sub-character Analysis of Chinese Corpora |
| 作者: | Yongfu Liao 廖永賦 |
| 指導教授: | 謝舒凱(Shu-Kai Hsieh) |
| 關鍵字: | 語料庫工具,書寫系統,漢字,部件,語料庫語言學, corpus toolkit,writing system,Chinese character,character components,corpus linguistics, |
| 出版年 : | 2022 |
| 學位: | 碩士 |
| 摘要: | 中文書寫系統在世界書寫系統中具有獨特的地位,因為絕大多數的漢字為語素文字 (logogram)。因此,漢字本身即攜帶語義訊息,而不像許多其他書寫系統需透過拼音對應至詞彙來攜帶語意訊息。此外,漢字通常可以被分解成更小的元素,這些元素常攜帶著與該漢字相關的語意和發音。然而,由於漢字的編碼方式 (encoding),電腦使用者不容易取得這些豐富的資訊——一個漢字對應到電腦中的一個編碼 (code point),這讓使用者無法進一步取得漢字的內部結構訊息,因為編碼本身並不會記錄這些資訊。例如,中文使用者會知道,「淋」和「霖」這兩個字的發音相同,因為它們有共同的部件「林」。但是我們無法從「淋」和「霖」的編碼中取得這個共同的部件——在 Unicode 中,「淋」與「霖」分別對應到 U+6DCB 與 U+9716,但這些編碼並無法表徵這兩個字具有關聯的事實。面對這個局限,我們開發了一個可分析子字詞層次的中文語料庫工具。這個語料庫工具讓使用者能夠取得漢字豐富的部件資訊 (包含部首與非部首),例如,這讓使用者可以根據漢字共有的部件進行檢索 (舉例來說,透過共同部件「林」,可以取得「淋」、「霖」、「琳」、「箖」與「惏」),並且讓使用者能夠透過這類訊息來進行語料的量化分析。除了語料庫工具之外,我們還進行了一項個案研究,以透過實徵資料驗證子字詞層次的資訊是否有用,並同時探索此階層與更高階層的語意關聯。結果顯示,某些特定的漢字部首語義訊息與詞彙的語義訊息具有顯著的關聯,然而多數的部首與詞彙類型並無明確的對映關係。論文最後,我們指出了漢字內部的高度遞迴結構對於當前研究的一些影響,並討論了解決相關困境的潛在可能。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507 |
| DOI: | 10.6342/NTU202200369 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 語言學研究所 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-0802202212352300.pdf | 1.68 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
