請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79254| 標題: | 基於Transformers深度學習模型建造之高效率漢英新聞雙語檢索系統 Applications of Transformers: Constructing a High-Productivity News Translation-focused Bilingual Concordancer |
| 作者: | Ruben Ga-Yuk Tsui 徐嘉煜 |
| 指導教授: | 高照明(Zhao-Ming Gao) |
| 關鍵字: | 平行語料庫,雙語檢索系統,雙語語料對齊,句子嵌入,Transformer,BERT,sentence transformer, parallel corpus,bilingual concordancer,bitext alignment,sentence embeddings,transformer,BERT,sentence transformer, |
| 出版年 : | 2022 |
| 學位: | 碩士 |
| 摘要: | "翻譯語料庫 (或平行語料庫) 為一種特殊類型的文本語料庫,在翻譯實務、翻譯研究和翻譯教育發揮了關鍵作用 (Bernardini, Stewart, Zanettin, 2003)。統計式機器翻譯 (statistical machine translation; SMT) 系統和近年開始普及的類神經網絡機器翻譯 (neural MT) 系統問世,使平行語料庫的重要性更為突出,原因是訓練主流機器翻譯系統時所需要的大量「標記」資料 (labeled data) 或「監督式學習」(supervised learning) 所需的資料正是平行語料。機器翻譯在過去幾年取得了長足的進步,然而許多譯者及翻譯教育工作者平時仍須仰賴雙語檢索系統以及其背後的平行語料庫。對於建立高效能漢英檢索系統時遇到的三大課題:(1) 提升平行句子中詞對齊 (word alignment) 的準確性, (2) 提升已對齊平行文檔 (document-aligned texts)中句對齊 (sentence alignment) 的準確性,以及 (3) 從可比語料 (comparable corpus)中找出隱藏的平行句子,本研究提供了目前最佳的處理方法。研究結果顯示,使用最新的類神經網絡 (artificial neural network) 自然語言處理 (natural language processing; NLP) 技術當中稱為 transformer 的架構所建立的語言模型 (language model),可以精準對齊平行句子中的詞和片語 (也就是將對齊誤差減到最低),有助譯者快速找到目的語中譯文的所在。此外,使用句子層次的 transformer,可以將平行文檔或段落對齊的平行語料升級為句對齊的語料庫,並大幅減少自動句對齊作業完成後的手動校正工作。最後,我們示範如何先在多語新聞網站挖掘出平行新聞文章,再從中獲得平行句子,而平行新聞文章之間如有明顯的鏈接或關聯則加以利用,若無本研究開發之演算法也可以根據文章語義加以判斷、比較。" |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79254 |
| DOI: | 10.6342/NTU202200561 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 翻譯碩士學位學程 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-1102202212174700.pdf | 2.42 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
