請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94767
完整後設資料紀錄
DC 欄位 | 值 | 語言 |
---|---|---|
dc.contributor.advisor | 項潔 | zh_TW |
dc.contributor.advisor | Jieh Hsiang | en |
dc.contributor.author | 王浩宇 | zh_TW |
dc.contributor.author | Hao Yu Wang | en |
dc.date.accessioned | 2024-08-19T16:12:48Z | - |
dc.date.available | 2024-08-20 | - |
dc.date.copyright | 2024-08-19 | - |
dc.date.issued | 2024 | - |
dc.date.submitted | 2024-08-05 | - |
dc.identifier.citation | [1] Ho, Hou Ieong Brent, and Hilde De Weerdt. MARKUS. Text Analysis and Reading Platform. 2014- http://dh.chinese-empires.eu/beta/ Funded by the European Research Council and the Digging into Data Challenge.
[2] Sturgeon, Donald (ed.). 2011. 中國哲學書電子化計劃. ( http://ctext.org ) [3] 文字差異比較|文件比對-線上工具 ( https://diff.onlinealat.com/ ) [4] Kanseki Repository.(n.d.)。漢リポKanseki Repository。取自https://www.kanripo.org [5] Tu H-C, Hsiang J, Hung I-M, Hu C (2020). DocuSky, A Personal Digital Humanities Platform for Scholars. Journal of Chinese History 1–17. https://doi.org/10.1017/jch.2020.28 [6] 蔡念成(2023)。中文古籍標點研究〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU202304034 [7] 高正玥(2023)。《通志》傳記人物與正史紀載比對系統建置研究〔碩士論文,國立臺灣大學〕。未公開。 [8] 中國基本古籍資料庫。北京愛如生數字化技術研究中心、漢珍數位圖書股份有限公司。(https://www.tbmc.com.tw/zh-tw/product/69/ ) [9] 維基文庫 wikisource. CC BY-SA 4.0 license. (https://zh.wikisource.org/zh-hant/Wikisource:%E9%A6%96%E9%A1%B5) [10] Tharsen, Jeffrey and Gladstone, Clovis. “Using Philologic For Digital Textual and Intertextual Analyses of the Twenty-Four Chinese Histories 二十四史.” Journal of Chinese History 4.2, 2020: 558–63. (https://doi.org/10.1017/jch.2020.27) | - |
dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94767 | - |
dc.description.abstract | 中國古代通史類別的書,鮮少有作者會將抄寫出處、引用關係清楚寫出。就算知道抄寫出處,讀者也不易找到相似段落並找出所有異同。若是能將出處、引用關係、相似段落之異同找出來,將能夠提供一種可行的方法,追溯書寫引用源頭,建立不同史料間的引用關係以進行其他分析探討,也能透過相似段落之異同對作者抄寫編修時的價值觀、外在影響因素進行分析。
出處、引用關係、相似段落之異同的尋找仰賴文本間的文字比對,但是以傳統人工方法進行,在研究對象是大量文本的情況下不僅過於耗時也難以保證結果的準確。因此,本研究試圖以《通志》為研究主體,建置一套文字比對的演算法與文本比對結果的呈現系統,以自動化的方式進行文字比對,並將結果數據呈現給使用者利用,提出一個傳統人工方法以外的有效文字比對做法,以數位人文的方法尋找出處、引用關係、相似段落之異同。 最後,筆者將利用本研究建置之系統,以微觀的相似段落異同和宏觀的比對數據分析,對《通志》作者鄭樵的抄寫習慣、《通志》前漢時期文本的抄寫出處進行基礎初步的探討,展示該系統協助相關研究的可能性。 | zh_TW |
dc.description.abstract | In ancient Chinese general histories, few authors clearly document their references and citation relationships of their transcriptions. Even when references are known, readers may find it difficult to locate similar paragraphs and identify all discrepancies. Finding references, citation relationships, and differences in similar paragraphs would provide a viable method for tracing the origins of citations, establishing citation relationships between different historical materials for further analysis. Additionally, analyzing differences in similar paragraphs could shed light on the values and external influences shaping an author's transcription and editing process.
Finding references, citation relationships, and differences in similar paragraphs relies on text comparing between paragraphs. However, finding the information mentioned above by human eyes or brain is time-consuming and not viable when dealing with large volumes of text. Therefore, this study aims to focus on the "Tongzhi" as its subject, developing not only an algorithm for text comparing but also a system for presenting the comparing results. By conduct textual comparing automatically and present the results to users, this research proposes an effective digital humanities approach to identifying references, citation relationships, and differences in similar paragraphs. Finally, through the developed system, I will conduct a preliminary exploration of Zheng Qiao's (the author of "Tongzhi") transcription habits in the "Tongzhi" and the references of transcriptions from the Former Han period, using both micro-level analysis of discrepancies in similar paragraphs and macro-level analysis on the data of comparing result. This aims to demonstrate the potential of the developed system in assisting related research endeavors. | en |
dc.description.provenance | Submitted by admin ntu (admin@lib.ntu.edu.tw) on 2024-08-19T16:12:48Z No. of bitstreams: 0 | en |
dc.description.provenance | Made available in DSpace on 2024-08-19T16:12:48Z (GMT). No. of bitstreams: 0 | en |
dc.description.tableofcontents | 誌謝 i
摘要 ii Abstract iii 目次 v 圖次 vii 表次 ix 公式次 x 第一章 緒論 1 1.1 研究動機及目的 1 1.2 研究問題 3 第二章 研究背景 4 2.1 其他文字比對系統及相關文獻探討 4 2.1.1 MARKUS 半自動古籍標記平台 5 2.1.2 CTEXT中國哲學書電子化計劃 7 2.1.3 TextPAIR 9 2.1.4 其他線上比對工具 10 2.1.5 相關論文探討 12 2.2 小結 15 第三章 研究方法 16 3.1 研究史料範圍 16 3.2 研究流程概述 18 第四章 史料比對 19 4.1史料來源、版本及資料處理 19 4.1.1《通志》來源、版本及分件處理暨朝代標記: 19 4.1.2其他史料來源及分件處理 24 4.1.3異體字修正 26 4.1.4無標點文本之自動標點 27 4.2 比對演算法設計 28 4.3分件史料比對方式 37 4.4 初步比對成果 38 4.5 比對史料之新增 45 4.5.1 史料新增方式及使用之資料庫 45 4.5.2 新增史料列表及二次比對結果 48 4.6 重組及拼接文本 52 4.7 出處史料已失傳之可能性 55 第五章系統設計與建置 56 5.1 系統架設目的 56 5.2 系統基礎架構與資料庫設計 57 5.3 「文字比對結果檢視」頁面設計與實作 59 5.4 「文字比對數據統計分析」頁面設計與實作 63 5.5 「自行比對文本」頁面設計與實作 67 5.6 通用功能及系統架構總覽 69 第六章 比對系統應用展示 70 6.1 微觀的相似段落比對 70 6.2 宏觀的總體數據比較 74 第七章 結論與未來展望 76 7.1 研究限制 76 7.2 未來展望 77 7.3 結論 78 附錄 80 附錄(一)、《通志》各卷傳主數、分布朝代列表: 80 附錄(二)、異體字取代紀錄表: 87 附錄(三)、《通志》傳主朝代分布暨比對史料對象表: 99 附錄(四)、《通志》各主要章節之傳主朝代分佈統計數據: 105 附錄(五)、《通志》各傳主主要暨次要出處紀錄表: 106 附錄(六)、《通志》各主要章節主要出處次數紀錄表: 240 附錄(七)、《通志》各朝代主要出處次數紀錄表: 241 | - |
dc.language.iso | zh_TW | - |
dc.title | 史料文字比對方法與系統之建置研究 - 以《通志》為例 | zh_TW |
dc.title | Research on Methods and Systems for Comparing Historical Texts – Taking Tongzhi as an Example | en |
dc.type | Thesis | - |
dc.date.schoolyear | 112-2 | - |
dc.description.degree | 碩士 | - |
dc.contributor.oralexamcommittee | 蔡宗翰;胡其瑞 | zh_TW |
dc.contributor.oralexamcommittee | Tzong-Han Tsai;Chi-Jui Hu | en |
dc.subject.keyword | 數位人文,演算法設計,文字比對,系統建置,《通志》, | zh_TW |
dc.subject.keyword | Digital Humanities,Algorithm Design,Text Comparing,System Development,Tongzhi, | en |
dc.relation.page | 241 | - |
dc.identifier.doi | 10.6342/NTU202403508 | - |
dc.rights.note | 同意授權(限校園內公開) | - |
dc.date.accepted | 2024-08-08 | - |
dc.contributor.author-college | 電機資訊學院 | - |
dc.contributor.author-dept | 資訊網路與多媒體研究所 | - |
dc.date.embargo-lift | 2027-08-05 | - |
顯示於系所單位: | 資訊網路與多媒體研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-112-2.pdf 目前未授權公開取用 | 6.6 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。