Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/37200
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山
dc.contributor.authorLi-Wei Chengen
dc.contributor.author鄭力維zh_TW
dc.date.accessioned2021-06-13T15:21:13Z-
dc.date.available2008-08-31
dc.date.copyright2008-07-23
dc.date.issued2008
dc.date.submitted2008-07-23
dc.identifier.citation[1] Chiu-yu Tseng, “Prosody Analysis,' in Advances in Chinese Spoken Language Processing, edited by Chin-Hui Lee, Haizhou Li, Lin-Shan Lee, Ren-Hua Wang, Qiang Huo, World Scientific Publishing, Singapore, pp.57-76, Singapore, 2006
[2] Chiu-yu Tseng, Shao-huang Pin, Yehlin Lee, Hsin-min Wang, and Yong-cheng Chen, “Fluent speech prosody: framework and modeling,” Speech Communication, Vol. 46, Issues 3-4, Special Issue on Quantitative Prosody Modeling for Natural Speech Description and Generation, 284-309
[3] 黃瑞婷, “使用韻律模型的進一歨大字彙國語連續語音辨識(Improved Large Vocabulary Continuous Mandarin Speech Recognition By Prosodic Modeling),” 碩士論文, 國立台灣大學電信工程學研究所, 2006
[4] 盧彥廷, “以預測的韻律詞邊界建構韻律模型使用於大字彙中文語音辨識(Large Vocabulary Continuous Mandarin Speech Recognition with Prosodic Modeling Using Predicted Prosodic Word Boundaries),” 碩士論文, 國立台灣大學電信工程學研究所, 2007
[5] Hongxiu Wei, Xinhao Wang, Hao Wu, Dingsheng Luo, Xihong Wu, “Exploiting prosodic and lexical Features for Tone Modeling in a Conditional Random Field Framework”, In Proc. ICASSP 2008
[6] 林婉怡, “流利國語語音之聲調辨識及其在大字彙辨識上的應用(Tone Recognition for Fluent Speech and Its application on Large Vocabulary Recognition),” 碩士論文, 國立台灣大學電信工程學研究所, 2004
[7] Chu M., Zhao Y., Chang, E., 'Modeling stylized invariance and local variability of prosody in text-to-speech synthesis”, Speech Communication, Vol. 48(2006), 716–726.
[8] Lin, C-K, and Lee, L-S, “Improved spontaneous Mandarin Speech recognition by disfluency interruption point (IP) detection using prosodic features,” In Proc. Eurospeech 2005
[9] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing: A Guide to Theory, Algorithm and System Development,” International Editions. 2005
[10] Wang, H., Qian, Y., Soong, F. K., Zhou J., and Han, J., 'A Milti-Space Distribution (MSD) Approach to Speech Recognition of Tonal Languages”, In Proc. INTERSPEECH 2006.
[11] Wang, W-J., Lin, C-H., Chen C-H., Liao I-B., and Huang, E-F., “Tone Recognition Based on Multi-layer Perception with Application for Continuous Mandarin Speech Recognition,” In Proc. ICS 2006
[12] Chiang, C-Y., Wang, X-D., Liao, Y-F., Wang, Y-R., Chen S-H., Hirose, K., 'Latent Prosodic Model of Continuous Mandarin Speech”, In Proc. ICASSP 2007
[13] Tian Y., Zhou J., Chu M., Chang E., 'Tone Recognition with Fractionized Models and Outlined Features,” In Proc. ICASSP 2004.
[14] He, L. and Hao, J., “A Tone Recognition Framework for Continuous Mandarin Speech,” In Proc. INTERSPEECH 2006
[15] Sun, Y., Willett, D., Brueckner, R., Gruhn, R., and Buhler, D., “Experiments on Chinese Speech Recognition with Tonel Models and Pitch Estimation Using the Mandarin Speech Data,” In Proc. INTERSPEECH 2006
[16] Wentao Gu, Keikichi Hirose, and Hiroya Fujisaki, “Comparison of Perceived Prosodic Boundaries and Global Characteristics of Voice Fundamental Frequency Contours in Mandarin Speech,” in Proc. ISCSLP 2006
[17] Li, A., “Chinese Prosody and Prosodic Labeling of Spontaneous Speech,” In Proc. Speech Prosody 2002, Aix-en-Provence, France 39-46
[18] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C.J., “Classification and Regression Tree,” Wadsworth, 1984
[19] Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classification,” Jpnh Wiley & Sons, Inc., Second Edition, 2001
[20] Leo Breiman, Adele Cutler, “Random Forests,” Machine Learning Vol. 45, October, 2001, p5-32
[21] Hanna M. Wallach, “Conditional Random Fields: An Introduction,” University of Pennsylvania, February 24, 2004
[22] John Lafferty, Andrew McCallum, Fernando Pereira, “Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data,” In Proc. 18th International Conf. on Machine Learning
[23] “A detailed description of COSPRO and Toolkit,” http://reg.myet.com/registration/corpus/en/Papers.asp
[24] “HTK Speech Recognition Toolkit,” http://htk.eng.cam.ac.uk/
[25] “ESPS Version 5.0 Program Manual”, http://www.speech.kth.se/software/
[26] 中研院斷詞系統,http://ckipsvr.iis.sinica.edu.tw/
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/37200-
dc.description.abstract語音中的韻律訊號是口語溝通中,不可或缺的一環。在數位語音工程的應用中,語音韻律訊號的模型及解讀應有助於提升系統對人類語言的處理能力。本論文藉由多種訊號特徵及語言特徵,並採用三種機器學習之方法做為基本架構,建立了國語的韻律訊號模型,來解讀國語語音中所呈現的韻律事件,進而應用在數位語音工程的諸多應用上。
在國語大字彙連續語音辨識之應用中,我們利用四個韻律訊號維度之資訊來建構模型,對各個聲調韻律事件的可能性做評估,用以執行兩段式的語音辨識,並得到顯著的字元辨識進步率。
在韻律預測之應用上,我們也根據猜測的所有可能會影響韻律訊號之事件,推估這些韻律事件對各個韻律維度上呈現現象之綜合影響,並以之建立了與統計數據相合的韻律模型。
zh_TW
dc.description.provenanceMade available in DSpace on 2021-06-13T15:21:13Z (GMT). No. of bitstreams: 1
ntu-97-R95942129-1.pdf: 1455351 bytes, checksum: c487184d2e0145b33f4e5b98b09945ba (MD5)
Previous issue date: 2008
en
dc.description.tableofcontents口試委員會審定書 i
誌謝 ii
中文摘要 iii
內容大綱 iv
圖目錄 viii
表目錄 ix
Chapter 1 導論 1
1.1 研究動機 1
1.2 研究主題相關背景 2
1.3 本論文之研究方法與主要成果 3
1.4 章節概要 4
Chapter 2 研究基礎簡介 7
2.1 工程角度下中文語音的韻律訊號 7
2.2 前人的韻律模型 8
2.3 分類法 9
2.3.1 決策樹 9
2.3.2 隨機森林. 12
2.3.3 條件隨機域. 13
2.4 大字彙中文連續語音辨識未使用韻律模型之基礎實驗及架構 17
2.4.1 基礎實驗語料 17
2.4.2 語音辨識系統架構. 17
2.4.3 語音特徵參數抽取. 17
2.4.4 聲學模型架構 18
2.4.5 語言模型架構. 18
2.4.6 基礎實驗. 19
2.5 本章結論 19
Chapter 3 中文韻律下聲調模型之建立 21
3.1 隨機森林之韻律聲調模型 21
3.1.1 基礎隨機森林聲調模型 21
3.1.2 大字彙辨識應用之韻律聲調模型 22
3.2 決策樹韻律模型 23
3.2.1 聲調傾向之決策樹韻律模型訓練 23
3.2.2 語者評估應用之音高曲線(Pitch Contour)韻律模型 24
3.3 兩種模型的優缺點分析整理 25
3.4 本章結論 26
Chapter 4 整合韻律聲調模型的大字彙辨識系統 27
4.1 實驗系統整體架構 27
4.2 韻律特徵參數(prosodic features)擷取 29
4.2.1 音高曲線及基頻擷取 29
4.2.2 音高特徵參數 30
4.2.3 能量特徵參數 31
4.2.4 長度特徵參數 32
4.3 韻律聲調模型在中文大字彙辨識的應用 32
4.4 韻律特徵參數在韻律聲調模型的重要性分析 34
4.4.1 韻律特徵參數在聲調模型上之重要性分析 34
4.4.2 韻律特徵參數在聲調難以判定字元辨識上之重要性分析 35
4.5 本章結論 36
Chapter 5 中文音節聲音響度與長度預測 37
5.1 音節響度與音節長度之韻律模型 37
5.1.1 音節響度之韻律模型 37
5.1.2 音節長度之韻律模型 41
5.2 音節響度與長度的韻律模型輸入參數 42
5.2.1 辭典詞輕重音詞模型特徵模板 42
5.2.2 二字詞音節之相對響度模型特徵模板 42
5.2.3 三字詞「強強弱」形式之強度模型特徵模板 43
5.2.4 三字詞前兩音節之相對響度模型特徵模板 43
5.2.5 辭典詞音節平均長度之相對長短模型特徵模板 44
5.3 測試音節響度與長度韻律模型的語料與實驗 44
5.3.1 實驗用語料 44
5.3.2 韻律模型測試實驗 44
5.4 音節響度與長度韻律模型的測試實驗結果 46
5.5 本章結論 47
Chapter 6 大字彙語音辨識之實驗結果與綜合討論 49
6.1 韻律聲調模型之訓練語料 49
6.2 聲調辨識實驗之實驗結果 49
6.3 結合韻律聲調模型之中文大字彙連續語音辨識 50
6.3.1 結合韻律聲調模型之辨識結果 50
6.3.2 綜合討論 52
6.4 本章結論 53
Chapter 7 結論與展望 55
7.1 結論 55
7.2 展望 56
REFERENCE 60
dc.language.isozh-TW
dc.title國語之韻律及聲調模型與其在語音辨識
及韻律預測之應用
zh_TW
dc.titleProsody and Tone Modeling for Mandarin Chinese with Applications in Speech Recognition and Prosody Predictionen
dc.typeThesis
dc.date.schoolyear96-2
dc.description.degree碩士
dc.contributor.oralexamcommittee王小川,鄭秋豫,陳信宏,簡仁宗
dc.subject.keyword聲調,大字彙辨識,韻律模型,韻律預測,中文韻律,zh_TW
dc.subject.keywordtone,large vocabulary speech recognition,prosody model,prosody prediction,Mandarin Prosody,en
dc.relation.page61
dc.rights.note有償授權
dc.date.accepted2008-07-23
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電信工程學研究所zh_TW
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-97-1.pdf
  目前未授權公開取用
1.42 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved