Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-Shan Lee)
dc.contributor.authorTing-Yao Huen
dc.contributor.author胡庭曜zh_TW
dc.date.accessioned2021-05-16T16:22:59Z-
dc.date.available2013-07-19
dc.date.available2021-05-16T16:22:59Z-
dc.date.copyright2013-07-19
dc.date.issued2013
dc.date.submitted2013-07-16
dc.identifier.citation[1] “DSP history - understanding speech: An interview with john makhoul,” IEEE
Signal Processing Magazine, pp. 76–79.
[2] Douglas O’Shaughnessy, “Invited paper: Automatic speech recognition: History,
methods and challenges,” Pattern Recognition, vol. 41, no. 10, pp. 2965 – 2979,
2008.
[3] M. J. F. Gales and S. J. Young, “Cepstral parameter compensation for hmm recognition
in noise,” Speech Commun., vol. 12, no. 3, pp. 231–239, July 1993.
[4] Liang-Che Sun and Lin-Shan Lee, “Modulation spectrum equalization for improved
robust speech recognition,” Trans. Audio, Speech and Lang. Proc., vol. 20, no. 3,
pp. 828–843, Mar. 2012.
[5] Yang Chang, “Robust speech recognition with two-dimensional frame-and-feature
weighting and modulation spectrum normalization,” M.S. thesis, National Taiwan
University, Taiwan, 2012.
[6] Phil C. Woodland, “Speaker adaptation for continuous density HMMs: A review,”
in ITRW on Adaptation Methods for Speech Recognition, Aug. 2001, pp. 11–19.
[7] Yu Tsao, “Speaker adaptation for mandarin syllable/tone recognition with limited
data,” M.S. thesis, National Taiwan University, Taiwan, 2001.
[8] M.J.F. Gales, “Cluster adaptive training of hidden markov models,” IEEE Transactions
on Speech and Audio Processing, vol. 8, pp. 417–428, 1999.
63
[9] Kai Yu and M. J.F. Gales, “Discriminative cluster adaptive training,” Trans. Audio,
Speech and Lang. Proc., vol. 14, no. 5, pp. 1694–1703, Sept. 2006.
[10] Philip C. Woodland, D. Pye, and M. J. F. Gales, “Iterative unsupervised adaptation
using maximum likelihood linear regression.,” in ICSLP. 1996, ISCA.
[11] Christopher M. Bishop, Pattern Recognition and Machine Learning (Information
Science and Statistics), Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[12] C.J. Leggetter and P.C. Woodland, “Maximum likelihood linear regression for
speaker adaptation of continuous density hidden markov models,” Computer Speech
and Language, vol. 9, no. 2, pp. 171 – 185, 1995.
[13] M.J.F. Gales, “Maximum likelihood linear transformations for HMM-based speech
recognition,” Computer Speech and Language, vol. 12, pp. 75–98, 1998.
[14] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum likelihood from incomplete
data via the em algorithm,” JOURNAL OF THE ROYAL STATISTICAL
SOCIETY, SERIES B, vol. 39, no. 1, pp. 1–38, 1977.
[15] C.-H. Lee J. Li, Y. Tsao, “Shrinkage model adaptation in automatic speech recognition.,”
in InterSpeech. 2010, pp. 1656–1659, ISCA.
[16] C.-H. Lee J. Li, M. Yuan, “Lasso model adaptation for automatic speech recognition.,”
in ICML, 2011.
[17] Olivier Siohan, Cristina Chesta, and Chin-Hui Lee, “Hidden markov model adaptation
using maximum a posteriori linear regression,” pp. 147–150, 1999.
64
[18] Wu Chou, “Maximum a posterior linear regression with elliptically symmetric matrix
variate priors,” in EUROSPEECH’99, 1999, pp. –1–1.
[19] N. Parihar and J. Picone, “Aurora working group: Dsr front end lvcsr evaluation
au/384/02,” Institutefor Signal and Information Processing report, 2002.
[20] Isabelle Guyon and Andr’e Elisseeff, “An introduction to variable and feature selection,”
J. Mach. Learn. Res., vol. 3, pp. 1157–1182, Mar. 2003.
[21] M. Dash and H. Liu, “Feature Selection for Classification,” Intelligent Data Analysis,
vol. 1, pp. 131–156, 1997.
[22] I. T. Jolliffe, Principal Component Analysis, Springer, second edition, Oct. 2002.
[23] George E. Dahl, Student Member, Dong Yu, Senior Member, Li Deng, and Alex
Acero, “Context-dependent pre-trained deep neural networks for large vocabulary
speech recognition,” in IEEE Transactions on Audio, Speech, and Language Processing,
2012.
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200-
dc.description.abstract聲學模型調適是改善聲學環境不匹配問題,增進語音辨識系統效能的一個重
要方向。仿射轉換方法(affine transformation) ,如最大相似度線性回歸(Maximum Likelihood Linear Regression, MLLR) ,在一般的聲學模型調適任務中有很好的效果。然而在缺乏調適語料及正確轉寫(transcription) 的自我調適情境(self adaptation)下,一般的仿射轉換調適方法容易造成過度貼合(over-fitting)問題。為此,本論文利用變數選取(variable selection) 的技術,提出兩種方法: 變數選取-最大相似度線性回歸(Variable Selection MLLR, VSMLLR) 以及變數選取-特徵最大相似度線性回歸(Variable Selection feature MLLR, VSfMLLR)。這兩種方法先以一些事前知識建構變數子集,再基於各變數子集以最大相似度準則求出對應的仿射轉換矩陣,最後利用正則化訓練準則(regularization criterion) 當作子集與其對應仿射轉換的評量分數。利用此方法,我們可以在系統上線時,即時為每句測試語料找出適合的變數子集、有效控制調適參數的複雜度、克服過度貼合問題並使辨識率進步。當這些方法實做在Aurora-4語料庫上時,可發現測試集的辨識率較基本系統有顯著的進步。並勝過了一般常見的仿射轉換調適法,以及各種正則化訓練準則的延伸。相較於基本系統的77.47%字正確率,在沒有額外的調適語料的條件下, 變數選取-最大相似度線性回歸以及變數選取-特徵最大相似度線性回歸分別將字正確率提升至80.10%與81.15%,相對進步率分別為11.67%以及16.33%。
zh_TW
dc.description.provenanceMade available in DSpace on 2021-05-16T16:22:59Z (GMT). No. of bitstreams: 1
ntu-102-R99942144-1.pdf: 3429300 bytes, checksum: 7c8190fcbad8cce2d0f42f4501325704 (MD5)
Previous issue date: 2013
en
dc.description.tableofcontents一、緒論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 語音辨識原理簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 聲學模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 語言模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 基於聲學模型調適的強健式語音辨識. . . . . . . . . . . . . . . . . . 6
1.6 本論文研究貢獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
二、基於模型調適之強健型語音辨識. . . . . . . . . . . . . . . . . . . . . . . 8
2.1 聲學模型調適摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 過度貼合問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 仿射轉換模型調適方法. . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 最大相似度線性回歸. . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 限制型最大相似度線性回歸. . . . . . . . . . . . . . . . . . . 14
2.4 正則化仿射轉換. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 L2規範正則化. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 L1規範正則化. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.3 最大事後機率線性回歸. . . . . . . . . . . . . . . . . . . . . . 19
2.5 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
三、基礎實驗. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1 Aurora-4基本設定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 基礎實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 正則化仿射變換實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 基於模型的正則化仿射變換. . . . . . . . . . . . . . . . . . . 26
3.3.2 基於特徵向量的正則化仿射變換. . . . . . . . . . . . . . . . 28
3.4 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
四、變數選取方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1 原理簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 打包法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 濾波器法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 變數選取與模型調適. . . . . . . . . . . . . . . . . . . . . . . . . . . 36
五、基於模型變數選取方法之強健型語音辨識. . . . . . . . . . . . . . . . . . 37
5.1 離線程序. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.1 變數子集建立-主成份分析. . . . . . . . . . . . . . . . . . . . 38
5.1.2 變數子集建立-窗型變數集. . . . . . . . . . . . . . . . . . . . 39
5.2 線上程序. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1 子集選取及模型調適-主成分分析. . . . . . . . . . . . . . . . 41
5.2.2 子集選取及模型調適-窗型變數集. . . . . . . . . . . . . . . . 43
5.3 Aurora-4實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
六、基於聲學特徵變數選取方法之強健型語音辨識. . . . . . . . . . . . . . . 47
6.1 變數子集-建立與選取. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.1.1 變數子集建立-主成份分析. . . . . . . . . . . . . . . . . . . . 47
6.1.2 變數子集建立-窗型變數集. . . . . . . . . . . . . . . . . . . . 49
6.1.3 子集選取與模型調適. . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Aurora-4 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.3 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
七、結論與展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.2 展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
A、基於聲學特徵的仿射轉換最佳化法. . . . . . . . . . . . . . . . . . . . . . 58
A.1 一般最佳化法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
A.2 低維度最佳化法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
dc.language.isozh-TW
dc.title基於變數選取聲學模型調適法之強健式語音辨識zh_TW
dc.titleAcoustic Model Adaptation with Variable Selection for Robust Speech Recognitionen
dc.typeThesis
dc.date.schoolyear101-2
dc.description.degree碩士
dc.contributor.oralexamcommittee王小川(Hsiao-Chuan Wang),陳信宏(Sin-Horng Chen),簡仁宗(Jen-Tzung Chien),鄭秋豫(Chiu-Yu Tseng)
dc.subject.keyword聲學模型調適,仿射轉換,變數選取,zh_TW
dc.subject.keywordAcoustic Model Adaptation,Affine Transformation,Variable Selection,en
dc.relation.page65
dc.rights.note同意授權(全球公開)
dc.date.accepted2013-07-17
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電信工程學研究所zh_TW
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-102-1.pdf3.35 MBAdobe PDF檢視/開啟
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved