請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67477完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 李琳山(Lin-Shan Lee) | |
| dc.contributor.author | Lang-Chi Yu | en |
| dc.contributor.author | 余朗祺 | zh_TW |
| dc.date.accessioned | 2021-06-17T01:33:56Z | - |
| dc.date.available | 2017-08-04 | |
| dc.date.copyright | 2017-08-04 | |
| dc.date.issued | 2017 | |
| dc.date.submitted | 2017-08-01 | |
| dc.identifier.citation | [1] “Coursera,” https://www.coursera.org/, 2012.
[2] Alexander M Rush, Sumit Chopra, and JasonWeston, “A neural attention model for abstractive sentence summarization,” in EMNLP, 2015. [3] David Graff, Junbo Kong, Ke Chen, and Kazuaki Maeda, “English gigaword,” Linguistic Data Consortium, Philadelphia, 2003. [4] Geoffrey E Hinton, Simon Osindero, and Yee-Whye Teh, “A fast learning algorithm for deep belief nets,” Neural computation, vol. 18, no. 7, pp. 1527–1554, 2006. [5] Geoffrey Hinton, NiRsh Srivastava, and Kevin Swersky, “Neural networks for machine learning lecture 6a overview of mini–batch gradient descent,” 2012. [6] John Duchi, Elad Hazan, and Yoram Singer, “Adaptive subgradient methods for online learning and stochastic optimization,” Journal of Machine Learning Research, vol. 12, no. Jul, pp. 2121–2159, 2011. [7] Sepp Hochreiter and J¨urgen Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997. [8] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” in Conference on Empirical Methods in Natural Language Processing, 2014. [9] Konstantin Lopyrev, “Generating news headlines with recurrent neural networks,” CoRR, abs/1512.01712, 2015. [10] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer, “Scheduled sampling for sequence prediction with recurrent neural networks,” in Advances in Neural Information Processing Systems, 2015, pp. 1171–1179. [11] Baotian Hu, Qingcai Chen, and Fangze Zhu, “Lcsts: A large scale chinese short text summarization dataset,” CoRR abs/1506.05865, 2015. [12] “The cmu pronouncing dictionary,” http://www.speech.cs.cmu.edu/cgi-bin/cmudict, 1998. [13] “Moby project,” http://icon.shef.ac.uk/Moby/, 2000. [14] T. Hori Y. Kubo, A. Ogawa and A. Nakamura, “Speech recognition based on unified model of acoustic and language aspects of speech,” NTT Technical Review, vol. 10, no. 12, 2013. [15] David Graff and Ke Chen, “Chinese gigaword,” LDC Catalog No.: LDC2003T09, ISBN, vol. 1, pp. 58563–58230, 2005. [16] Hsin-Min Wang, Berlin Chen, Jen-Wei Kuo, Shih-Sian Cheng, et al., “Matbn: A mandarin chinese broadcast news corpus,” International Journal of Computational Linguistics and Chinese Language Processing, vol. 10, no. 2, pp. 219–236, 2005. [17] Linguistic Data Consortium et al., “1997 english broadcast news speech (hub-4),” LDC catalog no.: LDC98S71, File ed980104. [18] S´ebastien Jean Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio, “On using very large target vocabulary for neural machine translation,” in Proceedings of ACLIJCNLP, 2015, pp. 1–10. [19] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, et al., “The kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society, 2011, number EPFL-CONF-192584. [20] “Wit.ai,” https://wit.ai/, 2016. [21] Paul Lamere, Philip Kwok, Evandro Gouvea, Bhiksha Raj, Rita Singh, William Walker, Manfred Warmuth, and Peter Wolf, “The cmu sphinx-4 speech recognition system,” in IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2003), Hong Kong, 2003, vol. 1, pp. 2–5. [22] Chin-Yew Lin, “Rouge: A package for automatic evaluation of summaries,” in Text summarization branches out: Proceedings of the ACL-04 workshop. Barcelona, Spain, 2004, vol. 8. [23] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor OK Li, “Incorporating copying mechanism in sequence-to-sequence learning,” in Association for Computational Linguistics, 2016. [24] “Amazon mechanical turk,” https://www.mturk.com/mturk/, 2005. | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67477 | - |
| dc.description.abstract | 近年來網路語音資訊量迅速增長,遠超過人們消化吸收資訊的能力;此外,不像純文字文件,語音文件因為不易呈現在螢幕上而難以瀏覽與搜尋,所以語音文件的自動標題產生顯得更加重要。因此,本論文之主軸在探討數位語音文件之抽象自動標題產生(Abstractive Headline Generation for Spoken Documents)。首先,訓練深層模型都會需要大量的訓練語料,就本論文的語音文件自動標題產生而言,需要數以百萬計的語音文件-參考標題配對,這樣數量的語料在蒐集上是有很大困難的。相對而言,純文字文件-參考標題配對容易取得,因此本論文提出一套基於混淆矩陣(Confusion Matrix)與LG-加權有限狀態轉換器(LG-Weighted Finite State Transducer)的辨識錯誤模型以學習語音辨識結果中的辨識錯誤結構(ASR Error Structure),並用以將純文字文件轉換成模擬語音文件,作為深層自動標題產生模型之訓練資料。此外,傳統深層自動標題產生模型中會加入專注機制提升模型表現,但訓練資料中的辨識錯誤會影響專注機制的效果,因此,本論文將辨識錯誤模型與專注機制結合,藉由辨識信心分數(Confidence Score)修正專注權重(Attention Weights),以改善語音文件自動標題產生模型。最後,本論文也探討提出的模型架構在不同語言(中文、英文)和使用不同語音單位(詞、字、聲韻母、音節、音位)建構之辨識錯誤模型之表現。 | zh_TW |
| dc.description.provenance | Made available in DSpace on 2021-06-17T01:33:56Z (GMT). No. of bitstreams: 1 ntu-106-R04942056-1.pdf: 2483155 bytes, checksum: fcea08c3ba65b9489745d9c7d078e6d7 (MD5) Previous issue date: 2017 | en |
| dc.description.tableofcontents | 誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
中文摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii 一、導論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 研究背景與研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 章節安排. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 二、背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1 深層類神經網路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 基本介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.2 訓練過程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 時間遞迴神經網路(RNN) . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.1 基本介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.2 長短期記憶類神經網路(LSTM Networks) . . . . . . . . . . . . 8 2.2.3 序列到序列模型(Seq-2-seq Models) . . . . . . . . . . . . . . . 12 2.3 時間遞迴神經網路相關優化法. . . . . . . . . . . . . . . . . . . . . . 14 2.3.1 專注機制(Attention Mechanism) . . . . . . . . . . . . . . . . . 14 2.3.2 排程取樣(Scheduled Sampling) . . . . . . . . . . . . . . . . . . 16 三、辨識錯誤模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.1 動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 次詞單位(Subword Units) . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2.1 音位(Phonemes) . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2.2 聲韻母(Initials and Finals) . . . . . . . . . . . . . . . . . . . . . 20 3.2.3 音節(Syllables) . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 架構模組. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3.1 混淆矩陣(Confusion Matrix) . . . . . . . . . . . . . . . . . . . 22 3.3.2 LG-加權有限狀態轉換器(Weighted Finite State Transducer) . . 24 3.4 前後文不相關(Context-independent)錯誤模型架構. . . . . . . . . . . 26 3.5 前後文相關(Context-dependent)錯誤模型架構. . . . . . . . . . . . . . 27 3.6 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 四、結合辨識錯誤模型與專注機制之語音文件自動標題生成. . . . . . . . . . 29 4.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 純文字之自動標題生成. . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3 樸實法模型(Na¨ıve Model, na¨ı) . . . . . . . . . . . . . . . . . . . . . . 30 4.4 本論文所提出之模型. . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.5 基本實驗配置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.5.1 實驗語料與前置處理(Preprocessing) . . . . . . . . . . . . . . . 33 4.5.2 自動語音辨識系統. . . . . . . . . . . . . . . . . . . . . . . . 35 4.5.3 模型實作細節和優化相關. . . . . . . . . . . . . . . . . . . . 36 4.6 實驗結果與討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.6.1 零辨識錯誤結果(Oracle Results) . . . . . . . . . . . . . . . . . 37 4.6.2 中文模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.6.3 英文模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.7 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 五、實驗結果範例與分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.2 範例與分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.2.1 預測標題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.2.2 專注權重. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.3 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 六、結論與未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.2 未來研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 | |
| dc.language.iso | zh-TW | |
| dc.subject | 編碼器-解碼器架構 | zh_TW |
| dc.subject | 抽象摘要 | zh_TW |
| dc.subject | 標題產生 | zh_TW |
| dc.subject | 辨識錯誤模型 | zh_TW |
| dc.subject | 專注機制 | zh_TW |
| dc.subject | ASR error modeling | en |
| dc.subject | abstractive summarization | en |
| dc.subject | headline generation | en |
| dc.subject | encoder-decoder architecture | en |
| dc.subject | attention mechanism | en |
| dc.title | 基於辨識錯誤模型之語音文件抽象標題產生 | zh_TW |
| dc.title | Abstractive Headline Generation for Spoken Documents with ASR Error Modeling | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 105-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 李宏毅(Hung-Yi Lee),王小川(Hsiao-Chuan Wang),陳信宏(Sin-Horng Chen),鄭秋豫(Chiu-Yu Tseng) | |
| dc.subject.keyword | 抽象摘要,標題產生,辨識錯誤模型,專注機制,編碼器-解碼器架構, | zh_TW |
| dc.subject.keyword | abstractive summarization,headline generation,ASR error modeling,attention mechanism,encoder-decoder architecture, | en |
| dc.relation.page | 62 | |
| dc.identifier.doi | 10.6342/NTU201702358 | |
| dc.rights.note | 有償授權 | |
| dc.date.accepted | 2017-08-02 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 電信工程學研究所 | zh_TW |
| 顯示於系所單位: | 電信工程學研究所 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-106-1.pdf 未授權公開取用 | 2.42 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
