Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 文學院
  3. 語言學研究所
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507
Title: 文字部件為本的語料分析:一個子字詞層次的中文語料庫工具
Glyph-based Corpus Analysis: A Toolkit for Sub-character Analysis of Chinese Corpora
Authors: Yongfu Liao
廖永賦
Advisor: 謝舒凱(Shu-Kai Hsieh)
Keyword: 語料庫工具,書寫系統,漢字,部件,語料庫語言學,
corpus toolkit,writing system,Chinese character,character components,corpus linguistics,
Publication Year : 2022
Degree: 碩士
Abstract: 中文書寫系統在世界書寫系統中具有獨特的地位,因為絕大多數的漢字為語素文字 (logogram)。因此,漢字本身即攜帶語義訊息,而不像許多其他書寫系統需透過拼音對應至詞彙來攜帶語意訊息。此外,漢字通常可以被分解成更小的元素,這些元素常攜帶著與該漢字相關的語意和發音。然而,由於漢字的編碼方式 (encoding),電腦使用者不容易取得這些豐富的資訊——一個漢字對應到電腦中的一個編碼 (code point),這讓使用者無法進一步取得漢字的內部結構訊息,因為編碼本身並不會記錄這些資訊。例如,中文使用者會知道,「淋」和「霖」這兩個字的發音相同,因為它們有共同的部件「林」。但是我們無法從「淋」和「霖」的編碼中取得這個共同的部件——在 Unicode 中,「淋」與「霖」分別對應到 U+6DCB 與 U+9716,但這些編碼並無法表徵這兩個字具有關聯的事實。面對這個局限,我們開發了一個可分析子字詞層次的中文語料庫工具。這個語料庫工具讓使用者能夠取得漢字豐富的部件資訊 (包含部首與非部首),例如,這讓使用者可以根據漢字共有的部件進行檢索 (舉例來說,透過共同部件「林」,可以取得「淋」、「霖」、「琳」、「箖」與「惏」),並且讓使用者能夠透過這類訊息來進行語料的量化分析。除了語料庫工具之外,我們還進行了一項個案研究,以透過實徵資料驗證子字詞層次的資訊是否有用,並同時探索此階層與更高階層的語意關聯。結果顯示,某些特定的漢字部首語義訊息與詞彙的語義訊息具有顯著的關聯,然而多數的部首與詞彙類型並無明確的對映關係。論文最後,我們指出了漢字內部的高度遞迴結構對於當前研究的一些影響,並討論了解決相關困境的潛在可能。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79507
DOI: 10.6342/NTU202200369
Fulltext Rights: 同意授權(全球公開)
Appears in Collections:語言學研究所

Files in This Item:
File SizeFormat 
U0001-0802202212352300.pdf1.68 MBAdobe PDFView/Open
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved