Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 文學院
  3. 語言學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507
標題: 文字部件為本的語料分析:一個子字詞層次的中文語料庫工具
Glyph-based Corpus Analysis: A Toolkit for Sub-character Analysis of Chinese Corpora
作者: Yongfu Liao
廖永賦
指導教授: 謝舒凱(Shu-Kai Hsieh)
關鍵字: 語料庫工具,書寫系統,漢字,部件,語料庫語言學,
corpus toolkit,writing system,Chinese character,character components,corpus linguistics,
出版年 : 2022
學位: 碩士
摘要: 中文書寫系統在世界書寫系統中具有獨特的地位,因為絕大多數的漢字為語素文字 (logogram)。因此,漢字本身即攜帶語義訊息,而不像許多其他書寫系統需透過拼音對應至詞彙來攜帶語意訊息。此外,漢字通常可以被分解成更小的元素,這些元素常攜帶著與該漢字相關的語意和發音。然而,由於漢字的編碼方式 (encoding),電腦使用者不容易取得這些豐富的資訊——一個漢字對應到電腦中的一個編碼 (code point),這讓使用者無法進一步取得漢字的內部結構訊息,因為編碼本身並不會記錄這些資訊。例如,中文使用者會知道,「淋」和「霖」這兩個字的發音相同,因為它們有共同的部件「林」。但是我們無法從「淋」和「霖」的編碼中取得這個共同的部件——在 Unicode 中,「淋」與「霖」分別對應到 U+6DCB 與 U+9716,但這些編碼並無法表徵這兩個字具有關聯的事實。面對這個局限,我們開發了一個可分析子字詞層次的中文語料庫工具。這個語料庫工具讓使用者能夠取得漢字豐富的部件資訊 (包含部首與非部首),例如,這讓使用者可以根據漢字共有的部件進行檢索 (舉例來說,透過共同部件「林」,可以取得「淋」、「霖」、「琳」、「箖」與「惏」),並且讓使用者能夠透過這類訊息來進行語料的量化分析。除了語料庫工具之外,我們還進行了一項個案研究,以透過實徵資料驗證子字詞層次的資訊是否有用,並同時探索此階層與更高階層的語意關聯。結果顯示,某些特定的漢字部首語義訊息與詞彙的語義訊息具有顯著的關聯,然而多數的部首與詞彙類型並無明確的對映關係。論文最後,我們指出了漢字內部的高度遞迴結構對於當前研究的一些影響,並討論了解決相關困境的潛在可能。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507
DOI: 10.6342/NTU202200369
全文授權: 同意授權(全球公開)
顯示於系所單位:語言學研究所

文件中的檔案:
檔案 大小格式 
U0001-0802202212352300.pdf1.68 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved