Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電機工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/28748
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-Shan Lee)
dc.contributor.authorYen-Ting Luen
dc.contributor.author盧彥廷zh_TW
dc.date.accessioned2021-06-13T00:20:40Z-
dc.date.available2007-08-02
dc.date.copyright2007-08-02
dc.date.issued2007
dc.date.submitted2007-07-25
dc.identifier.citation參考文獻
【1】 Tseng, Chiu-yu, “Prosody Analysis” , in Advances in Chinese Spoken
Language Processing, edited by Chin-Hui Lee, Haizhou Li, Lin-shan Lee,
Ren-Hua Wang, Qiang Huo, World Scientific Publishing, Singapore, pp.57-76, Singapore. 2006
【2】 黃瑞婷, “使用韻律模型的進一步大字彙國語連續語音辨識(Improved
Large Vocabulary Continuous Mandarin Speech Recognition By Prosodic
Modeling)”, 碩士論文, 國立台灣大學電信工程學研究所, 2006.
【3】 Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language
Processing – A Guide to Theory, Algorithm and System Development”
International Editions. 2005
【4】 K. Chen, M. Hasegawa-Johnson and S. Kim, “Prosody Dependent Speech
Recognition on Radio News”, Department of Electrical and Computer
Engineering and Department of Linguistics University of Illinois at
Urbana-Champaign, Urbana, IL 61801, 2003
【4】 Sarah Borys, Mark Hasegawa-Johnson, and Jennifer Cole, “Prosody as A
Conditioning Variable in Speech Recognition”, Department of Electrical and
Computer Engineering and Department of Linguistics, University of Illinois at
Urbana-Champaign, Urbana, IL 61901, 2003
【5】 CAO Jianfen,” Rhythm of Spoken Chinese -- Linguistic and Paralinguistic
Evidences” , Institute of Linguistics Chinese Academy of Social Sciences,
Report of Phonetic Research 2000.
【6】 Lei He, Jie Hao, “A Tone Recognition Framework For Continuous Mandarin
Speech”, Toshiba(China) Research and Development Center, Interspeech 2006
【7】 林婉怡, “流利國語語音之聲調辨識及其在大字彙辨識上的應用(Tone
Recognition for Fluent Mandarin Speech and Its application on Large
Vocabulary Recognition)”, 碩士論文, 國立台灣大學電信工程學研究所,2004
【8】 Wentao Gu, Keikichi Hirose, and Hiroya Fujisaki, “Comparison of Perceived
Prosodic Boundaries and Global Characteristics of Voice Fundamental
Frequency Contours in Mandarin Speech”, in ISCSLP 2006.
【9】 Li, A., et al. “Speech Corpus of Chinese Discourse and the Phonetic
Research.” Proc. ICSLP 2000, Beijing, China vol. 4: 13-18.
【10】 Zhu Weibin, Shen Liqin, and Niu Xiaochuan, “Duration Modeling for
Chinese Synthesis from C-ToBI Labeled Corpus”, Speech Group, IBM
China Research Lab.Beijing, 100085, China, 2000.
【12】 Li, A. “Chinese Prosody and Prosodic Labeling of Spontaneous Speech.”
Proc. Speech Prosody 2002, Aix-en-Provence, France 39-46.
【13】 Silverman, K. E. A., M. Beckman, J. F. Pitrelli, M. Ostendorf, C. Wightman,
P. Price, J. Pierrehumbert, and J. Hirschberg. 1992. “ToBI: A standard for
Labeling English Prosody.” In Proceedings of the 1992 International
Conference on Spoken Language Processing, Vol. 2, 867-870. Banff,
Canada.
【14】 Institute of Linguistics Chinese Academy of Social Sciences.
http://ling.cass.cn/yuyin/index.htm
【15】 Chiu-yu Tseng, Shao-huang Pin, Yehlin Lee, Hsin-min Wang, Yong-cheng
Chen, “Fluent speech prosody: framework and modeling,” Speech
Communication, Vol.46, issues 3-4, July 2005, Special Issue on Quantitative
Prosody Modeling for Natural Speech Description an Generation,284-309.
【16】 “A detailed description of COSPRO and Tookit,”
http://reg.myet.com/registration/corpus/en/Papers.asp
【17】 I. H. Witten, E. Frank “Data Mining - Practical Machine Learning Tools and
Techniques”, Second Edition, 2005.
【18】 Pawel Lewicki, Thomas Hill “Statistics: Methods and Applications” StatSoft,
Inc. 2006.
【19】 Breiman L., Friedman J. H., Olshen R. A., Stone, C. J. “Classification and
Regression Trees.” Wadsworth. 1984.
【20】 Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classification” John
Wiley &Sons, Inc. Second Edition, 2001.
【21】 Leo Breiman, Adele Cutler, “Random Forests” Machine Learning Vol. 45,
2001 October, p5-32
【22】 Hanna M. Wallach, “Conditional Random Fields: An Introduction” University
of Pennsylvania. February 24, 2004
【23】 J. Lafferty, A. McCallum, and F. Pereira. “Conditional random fields:
probabilistic models for segmenting and labeling sequence data.” In
International Conference on Machine Learning, 2001.
【24】 Heng Kang, Wenju Liu , “Prosodic Words Prediction from Lexicon Words
with CRF and TBL Joint Method” National Laboratory of Pattern
Recognition, Institute of Automation, Chinese Academy of Sciences.
ISCSLP, 2006
【25】 HTK Speech Recognition Toolkit http://htk.eng.cam.ac.uk/
【26】 Chao Wang and Stephanie Seneff, “Robust pitch tracking for prosodic
modeling,” in Proc. ICASSP, 2000
【27】 ESPS Version 5.0 Program Manual. 1993
【28】 中央研究院中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/
【29】 http://crfpp.sourceforge.net/ taku@chasen.org
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/28748-
dc.description.abstract韻律是日常口語對話中產生之現象,因此在語音辨識系統中加入了韻律的資訊,能使辨識的結果更趨近於人說話時所產生的語句。本論文運用大量韻律資訊訓練韻律模型,並與傳統考慮聲學模型以及語言模型之語音辨識系統結合,得到更佳的辨識率。 本論文以音節為單位抽取基頻、能量、長度以及類別參數,訓練聲調與韻律詞邊界之韻律模型;而在韻律模型的訓練上,又以辭典詞與韻律詞分別訓練並比較其產生之韻律模型對辨識系統的幫助。為了得到較豐富的韻律詞邊界資訊,採用條件隨機域的方法,預測了韻律詞的邊界,其準確率、回收率、F1評比以及邊界正確率都在百分之八十以上。此外,亦比較韻律模型對於特定語者與非特定語者之影響。 在實驗的架構上,採取兩階段,在第一階段中作傳統的辨識產生詞圖;第二階段根據詞圖中的每個詞弧上音節的時間區間抽取相對應的韻律特徵參數,建立韻律模型後在詞弧上重新計分。實驗結果顯示,以韻律詞訓練之韻律模型有較好的表現,在字元的辨識率上優於傳統模型與辭典詞韻律模型。zh_TW
dc.description.provenanceMade available in DSpace on 2021-06-13T00:20:40Z (GMT). No. of bitstreams: 1
ntu-96-R94921024-1.pdf: 1040482 bytes, checksum: 07fe8839c6c03fcdb81971e19e49e0d5 (MD5)
Previous issue date: 2007
en
dc.description.tableofcontents目錄
口試委員審定書......................... i
誌謝.............................. iii
摘要.............................. v
目錄.............................. vii
圖目錄............................. x
表目錄............................. xi
第一章:導論 ......................... 1
1.1 研究動機........................ 1
1.2 研究主題相關背景.................... 2
1.3 本論文之研究方法與主要成果............... 3
1.4 章節概要........................ 3
第二章:基礎背景簡介 ..................... 5
2.1 中文語音韻律階層結構.................. 5
2.2 基本分類法....................... 7
2.2.1 決策樹 ...................... 7
2.2.2 隨機森林 ..................... 10
2.2.3 條件隨機域 .................... 12
2.3 大字彙中文連續語音辨識未使用韻律模型之基礎實驗及架構.. 14
2.3.1 基礎實驗語料 ................... 14
2.3.2 語音辨識系統架構 ................. 15
2.3.3 語音特徵參數抽取 ................. 16
2.3.4 聲學模型架構 ................... 16
2.3.5 語言模型架構 ................... 20
2.3.6 基礎實驗 ..................... 20
2.4 本章結論........................ 21
第三章:結合韻律模型的辨識系統 ................ 23
3.1 實驗系統整體架構.................... 23
3.2 韻律相關特徵參數抽取.................. 25
3.2.1 基頻 ....................... 26
3.2.2 能量特徵參數 ................... 27
3.2.3 音高特徵參數 ................... 28
3.2.4 長度特徵參數 ................... 29
3.2.5 類別參數 ..................... 29
3.3 中文韻律模型建立.................... 33
3.4 本章結論........................ 37
第四章:語料韻律詞邊界之預測 ................. 39
4.1 韻律詞邊界預測..................... 39
4.1.1預測韻律詞邊界之語料................ 39
4.1.2預測韻律詞邊界之實驗設計.............. 40
4.1.3 預測韻律詞邊界之參數 ............... 44
4.1.4 預測韻律詞邊界之方法 ............... 46
4.2 韻律詞邊界之預測與結果................. 49
4.3 本章結論........................ 53
第五章:實驗結果與綜合討論 ................... 55
5.1特定語者之基礎實驗結果 ................. 55
5.2 韻律模型特徵參數重要性分析 .............. 55
5.2.1 特徵參數在聲調上之重要性分析 ........... 56
5.2.2 特徵參數在韻律詞邊界上之重要性分析 ........ 56
5.3 結合韻律模型之大字彙中文連續語音辨識 ......... 58
5.3.1 結合韻律模型的辨識結果 .............. 58
5.3.2 綜合討論..................... 59
5.4 本章結論 ....................... 62
第六章:結論與展望 ...................... 63
6.1 結論 ......................... 63
6.2 展望 ......................... 64
參考文獻........................... 65
dc.language.isozh-TW
dc.subject韻&#63960zh_TW
dc.subject詞zh_TW
dc.subject韻&#63960zh_TW
dc.subject模型zh_TW
dc.subject詞邊界zh_TW
dc.subject聲調zh_TW
dc.subject韻&#63960zh_TW
dc.subjectprosodic modelen
dc.subjecttoneen
dc.subjectprosodic boundaryen
dc.subjectprosodic worden
dc.title以預測的韻律詞邊界建構韻律模型使用於大字彙中文連續語音辨識zh_TW
dc.titleLarge Vocabulary Continuous Mandarin Speech Recognition with Prosodic Modeling Using Predicted Prosodic Word Boundariesen
dc.typeThesis
dc.date.schoolyear95-2
dc.description.degree碩士
dc.contributor.oralexamcommittee鄭秋豫(Chiu-Yu Tseng),王小川(Hsiao-Chuan Wang),陳信宏(Shin-Horng Chen)
dc.subject.keyword韻&#63960,詞,韻&#63960,模型,韻&#63960,詞邊界,聲調,zh_TW
dc.subject.keywordprosodic word,prosodic model,prosodic boundary,tone,en
dc.relation.page67
dc.rights.note有償授權
dc.date.accepted2007-07-27
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電機工程學研究所zh_TW
顯示於系所單位:電機工程學系

文件中的檔案:
檔案 大小格式 
ntu-96-1.pdf
  未授權公開取用
1.02 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved