Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67477
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-Shan Lee)
dc.contributor.authorLang-Chi Yuen
dc.contributor.author余朗祺zh_TW
dc.date.accessioned2021-06-17T01:33:56Z-
dc.date.available2017-08-04
dc.date.copyright2017-08-04
dc.date.issued2017
dc.date.submitted2017-08-01
dc.identifier.citation[1] “Coursera,” https://www.coursera.org/, 2012.
[2] Alexander M Rush, Sumit Chopra, and JasonWeston, “A neural attention model for abstractive sentence summarization,” in EMNLP, 2015.
[3] David Graff, Junbo Kong, Ke Chen, and Kazuaki Maeda, “English gigaword,” Linguistic Data Consortium, Philadelphia, 2003.
[4] Geoffrey E Hinton, Simon Osindero, and Yee-Whye Teh, “A fast learning algorithm for deep belief nets,” Neural computation, vol. 18, no. 7, pp. 1527–1554, 2006.
[5] Geoffrey Hinton, NiRsh Srivastava, and Kevin Swersky, “Neural networks for machine learning lecture 6a overview of mini–batch gradient descent,” 2012.
[6] John Duchi, Elad Hazan, and Yoram Singer, “Adaptive subgradient methods for online learning and stochastic optimization,” Journal of Machine Learning Research, vol. 12, no. Jul, pp. 2121–2159, 2011.
[7] Sepp Hochreiter and J¨urgen Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[8] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” in Conference on Empirical Methods in Natural Language Processing, 2014.
[9] Konstantin Lopyrev, “Generating news headlines with recurrent neural networks,” CoRR, abs/1512.01712, 2015.
[10] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer, “Scheduled sampling for sequence prediction with recurrent neural networks,” in Advances in Neural Information Processing Systems, 2015, pp. 1171–1179.
[11] Baotian Hu, Qingcai Chen, and Fangze Zhu, “Lcsts: A large scale chinese short text summarization dataset,” CoRR abs/1506.05865, 2015.
[12] “The cmu pronouncing dictionary,” http://www.speech.cs.cmu.edu/cgi-bin/cmudict, 1998.
[13] “Moby project,” http://icon.shef.ac.uk/Moby/, 2000.
[14] T. Hori Y. Kubo, A. Ogawa and A. Nakamura, “Speech recognition based on unified model of acoustic and language aspects of speech,” NTT Technical Review, vol. 10, no. 12, 2013.
[15] David Graff and Ke Chen, “Chinese gigaword,” LDC Catalog No.: LDC2003T09, ISBN, vol. 1, pp. 58563–58230, 2005.
[16] Hsin-Min Wang, Berlin Chen, Jen-Wei Kuo, Shih-Sian Cheng, et al., “Matbn: A mandarin chinese broadcast news corpus,” International Journal of Computational Linguistics and Chinese Language Processing, vol. 10, no. 2, pp. 219–236, 2005.
[17] Linguistic Data Consortium et al., “1997 english broadcast news speech (hub-4),” LDC catalog no.: LDC98S71, File ed980104.
[18] S´ebastien Jean Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio, “On using very large target vocabulary for neural machine translation,” in Proceedings of ACLIJCNLP, 2015, pp. 1–10.
[19] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, et al., “The kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society, 2011, number EPFL-CONF-192584.
[20] “Wit.ai,” https://wit.ai/, 2016.
[21] Paul Lamere, Philip Kwok, Evandro Gouvea, Bhiksha Raj, Rita Singh, William Walker, Manfred Warmuth, and Peter Wolf, “The cmu sphinx-4 speech recognition system,” in IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2003), Hong Kong, 2003, vol. 1, pp. 2–5.
[22] Chin-Yew Lin, “Rouge: A package for automatic evaluation of summaries,” in Text summarization branches out: Proceedings of the ACL-04 workshop. Barcelona, Spain, 2004, vol. 8.
[23] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor OK Li, “Incorporating copying mechanism in sequence-to-sequence learning,” in Association for Computational Linguistics, 2016.
[24] “Amazon mechanical turk,” https://www.mturk.com/mturk/, 2005.
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67477-
dc.description.abstract近年來網路語音資訊量迅速增長,遠超過人們消化吸收資訊的能力;此外,不像純文字文件,語音文件因為不易呈現在螢幕上而難以瀏覽與搜尋,所以語音文件的自動標題產生顯得更加重要。因此,本論文之主軸在探討數位語音文件之抽象自動標題產生(Abstractive Headline Generation for Spoken Documents)。首先,訓練深層模型都會需要大量的訓練語料,就本論文的語音文件自動標題產生而言,需要數以百萬計的語音文件-參考標題配對,這樣數量的語料在蒐集上是有很大困難的。相對而言,純文字文件-參考標題配對容易取得,因此本論文提出一套基於混淆矩陣(Confusion Matrix)與LG-加權有限狀態轉換器(LG-Weighted Finite State Transducer)的辨識錯誤模型以學習語音辨識結果中的辨識錯誤結構(ASR Error Structure),並用以將純文字文件轉換成模擬語音文件,作為深層自動標題產生模型之訓練資料。此外,傳統深層自動標題產生模型中會加入專注機制提升模型表現,但訓練資料中的辨識錯誤會影響專注機制的效果,因此,本論文將辨識錯誤模型與專注機制結合,藉由辨識信心分數(Confidence Score)修正專注權重(Attention Weights),以改善語音文件自動標題產生模型。最後,本論文也探討提出的模型架構在不同語言(中文、英文)和使用不同語音單位(詞、字、聲韻母、音節、音位)建構之辨識錯誤模型之表現。zh_TW
dc.description.provenanceMade available in DSpace on 2021-06-17T01:33:56Z (GMT). No. of bitstreams: 1
ntu-106-R04942056-1.pdf: 2483155 bytes, checksum: fcea08c3ba65b9489745d9c7d078e6d7 (MD5)
Previous issue date: 2017
en
dc.description.tableofcontents誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
中文摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
一、導論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 研究背景與研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 章節安排. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
二、背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 深層類神經網路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 基本介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 訓練過程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 時間遞迴神經網路(RNN) . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 基本介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 長短期記憶類神經網路(LSTM Networks) . . . . . . . . . . . . 8
2.2.3 序列到序列模型(Seq-2-seq Models) . . . . . . . . . . . . . . . 12
2.3 時間遞迴神經網路相關優化法. . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 專注機制(Attention Mechanism) . . . . . . . . . . . . . . . . . 14
2.3.2 排程取樣(Scheduled Sampling) . . . . . . . . . . . . . . . . . . 16
三、辨識錯誤模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1 動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 次詞單位(Subword Units) . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 音位(Phonemes) . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 聲韻母(Initials and Finals) . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 音節(Syllables) . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 架構模組. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 混淆矩陣(Confusion Matrix) . . . . . . . . . . . . . . . . . . . 22
3.3.2 LG-加權有限狀態轉換器(Weighted Finite State Transducer) . . 24
3.4 前後文不相關(Context-independent)錯誤模型架構. . . . . . . . . . . 26
3.5 前後文相關(Context-dependent)錯誤模型架構. . . . . . . . . . . . . . 27
3.6 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
四、結合辨識錯誤模型與專注機制之語音文件自動標題生成. . . . . . . . . . 29
4.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 純文字之自動標題生成. . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 樸實法模型(Na¨ıve Model, na¨ı) . . . . . . . . . . . . . . . . . . . . . . 30
4.4 本論文所提出之模型. . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.5 基本實驗配置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5.1 實驗語料與前置處理(Preprocessing) . . . . . . . . . . . . . . . 33
4.5.2 自動語音辨識系統. . . . . . . . . . . . . . . . . . . . . . . . 35
4.5.3 模型實作細節和優化相關. . . . . . . . . . . . . . . . . . . . 36
4.6 實驗結果與討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6.1 零辨識錯誤結果(Oracle Results) . . . . . . . . . . . . . . . . . 37
4.6.2 中文模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.6.3 英文模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.7 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
五、實驗結果範例與分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 範例與分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.1 預測標題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 專注權重. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
六、結論與未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2 未來研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
dc.language.isozh-TW
dc.subject編碼器-解碼器架構zh_TW
dc.subject抽象摘要zh_TW
dc.subject標題產生zh_TW
dc.subject辨識錯誤模型zh_TW
dc.subject專注機制zh_TW
dc.subjectASR error modelingen
dc.subjectabstractive summarizationen
dc.subjectheadline generationen
dc.subjectencoder-decoder architectureen
dc.subjectattention mechanismen
dc.title基於辨識錯誤模型之語音文件抽象標題產生zh_TW
dc.titleAbstractive Headline Generation for Spoken Documents with ASR Error Modelingen
dc.typeThesis
dc.date.schoolyear105-2
dc.description.degree碩士
dc.contributor.oralexamcommittee李宏毅(Hung-Yi Lee),王小川(Hsiao-Chuan Wang),陳信宏(Sin-Horng Chen),鄭秋豫(Chiu-Yu Tseng)
dc.subject.keyword抽象摘要,標題產生,辨識錯誤模型,專注機制,編碼器-解碼器架構,zh_TW
dc.subject.keywordabstractive summarization,headline generation,ASR error modeling,attention mechanism,encoder-decoder architecture,en
dc.relation.page62
dc.identifier.doi10.6342/NTU201702358
dc.rights.note有償授權
dc.date.accepted2017-08-02
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電信工程學研究所zh_TW
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-106-1.pdf
  未授權公開取用
2.42 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved