請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 李琳山(Lin-Shan Lee) | |
| dc.contributor.author | Ting-Yao Hu | en |
| dc.contributor.author | 胡庭曜 | zh_TW |
| dc.date.accessioned | 2021-05-16T16:22:59Z | - |
| dc.date.available | 2013-07-19 | |
| dc.date.available | 2021-05-16T16:22:59Z | - |
| dc.date.copyright | 2013-07-19 | |
| dc.date.issued | 2013 | |
| dc.date.submitted | 2013-07-16 | |
| dc.identifier.citation | [1] “DSP history - understanding speech: An interview with john makhoul,” IEEE
Signal Processing Magazine, pp. 76–79. [2] Douglas O’Shaughnessy, “Invited paper: Automatic speech recognition: History, methods and challenges,” Pattern Recognition, vol. 41, no. 10, pp. 2965 – 2979, 2008. [3] M. J. F. Gales and S. J. Young, “Cepstral parameter compensation for hmm recognition in noise,” Speech Commun., vol. 12, no. 3, pp. 231–239, July 1993. [4] Liang-Che Sun and Lin-Shan Lee, “Modulation spectrum equalization for improved robust speech recognition,” Trans. Audio, Speech and Lang. Proc., vol. 20, no. 3, pp. 828–843, Mar. 2012. [5] Yang Chang, “Robust speech recognition with two-dimensional frame-and-feature weighting and modulation spectrum normalization,” M.S. thesis, National Taiwan University, Taiwan, 2012. [6] Phil C. Woodland, “Speaker adaptation for continuous density HMMs: A review,” in ITRW on Adaptation Methods for Speech Recognition, Aug. 2001, pp. 11–19. [7] Yu Tsao, “Speaker adaptation for mandarin syllable/tone recognition with limited data,” M.S. thesis, National Taiwan University, Taiwan, 2001. [8] M.J.F. Gales, “Cluster adaptive training of hidden markov models,” IEEE Transactions on Speech and Audio Processing, vol. 8, pp. 417–428, 1999. 63 [9] Kai Yu and M. J.F. Gales, “Discriminative cluster adaptive training,” Trans. Audio, Speech and Lang. Proc., vol. 14, no. 5, pp. 1694–1703, Sept. 2006. [10] Philip C. Woodland, D. Pye, and M. J. F. Gales, “Iterative unsupervised adaptation using maximum likelihood linear regression.,” in ICSLP. 1996, ISCA. [11] Christopher M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006. [12] C.J. Leggetter and P.C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models,” Computer Speech and Language, vol. 9, no. 2, pp. 171 – 185, 1995. [13] M.J.F. Gales, “Maximum likelihood linear transformations for HMM-based speech recognition,” Computer Speech and Language, vol. 12, pp. 75–98, 1998. [14] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum likelihood from incomplete data via the em algorithm,” JOURNAL OF THE ROYAL STATISTICAL SOCIETY, SERIES B, vol. 39, no. 1, pp. 1–38, 1977. [15] C.-H. Lee J. Li, Y. Tsao, “Shrinkage model adaptation in automatic speech recognition.,” in InterSpeech. 2010, pp. 1656–1659, ISCA. [16] C.-H. Lee J. Li, M. Yuan, “Lasso model adaptation for automatic speech recognition.,” in ICML, 2011. [17] Olivier Siohan, Cristina Chesta, and Chin-Hui Lee, “Hidden markov model adaptation using maximum a posteriori linear regression,” pp. 147–150, 1999. 64 [18] Wu Chou, “Maximum a posterior linear regression with elliptically symmetric matrix variate priors,” in EUROSPEECH’99, 1999, pp. –1–1. [19] N. Parihar and J. Picone, “Aurora working group: Dsr front end lvcsr evaluation au/384/02,” Institutefor Signal and Information Processing report, 2002. [20] Isabelle Guyon and Andr’e Elisseeff, “An introduction to variable and feature selection,” J. Mach. Learn. Res., vol. 3, pp. 1157–1182, Mar. 2003. [21] M. Dash and H. Liu, “Feature Selection for Classification,” Intelligent Data Analysis, vol. 1, pp. 131–156, 1997. [22] I. T. Jolliffe, Principal Component Analysis, Springer, second edition, Oct. 2002. [23] George E. Dahl, Student Member, Dong Yu, Senior Member, Li Deng, and Alex Acero, “Context-dependent pre-trained deep neural networks for large vocabulary speech recognition,” in IEEE Transactions on Audio, Speech, and Language Processing, 2012. | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200 | - |
| dc.description.abstract | 聲學模型調適是改善聲學環境不匹配問題,增進語音辨識系統效能的一個重
要方向。仿射轉換方法(affine transformation) ,如最大相似度線性回歸(Maximum Likelihood Linear Regression, MLLR) ,在一般的聲學模型調適任務中有很好的效果。然而在缺乏調適語料及正確轉寫(transcription) 的自我調適情境(self adaptation)下,一般的仿射轉換調適方法容易造成過度貼合(over-fitting)問題。為此,本論文利用變數選取(variable selection) 的技術,提出兩種方法: 變數選取-最大相似度線性回歸(Variable Selection MLLR, VSMLLR) 以及變數選取-特徵最大相似度線性回歸(Variable Selection feature MLLR, VSfMLLR)。這兩種方法先以一些事前知識建構變數子集,再基於各變數子集以最大相似度準則求出對應的仿射轉換矩陣,最後利用正則化訓練準則(regularization criterion) 當作子集與其對應仿射轉換的評量分數。利用此方法,我們可以在系統上線時,即時為每句測試語料找出適合的變數子集、有效控制調適參數的複雜度、克服過度貼合問題並使辨識率進步。當這些方法實做在Aurora-4語料庫上時,可發現測試集的辨識率較基本系統有顯著的進步。並勝過了一般常見的仿射轉換調適法,以及各種正則化訓練準則的延伸。相較於基本系統的77.47%字正確率,在沒有額外的調適語料的條件下, 變數選取-最大相似度線性回歸以及變數選取-特徵最大相似度線性回歸分別將字正確率提升至80.10%與81.15%,相對進步率分別為11.67%以及16.33%。 | zh_TW |
| dc.description.provenance | Made available in DSpace on 2021-05-16T16:22:59Z (GMT). No. of bitstreams: 1 ntu-102-R99942144-1.pdf: 3429300 bytes, checksum: 7c8190fcbad8cce2d0f42f4501325704 (MD5) Previous issue date: 2013 | en |
| dc.description.tableofcontents | 一、緒論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 語音辨識原理簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 聲學模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 語言模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5 基於聲學模型調適的強健式語音辨識. . . . . . . . . . . . . . . . . . 6 1.6 本論文研究貢獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 二、基於模型調適之強健型語音辨識. . . . . . . . . . . . . . . . . . . . . . . 8 2.1 聲學模型調適摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 過度貼合問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 仿射轉換模型調適方法. . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.1 最大相似度線性回歸. . . . . . . . . . . . . . . . . . . . . . . 12 2.3.2 限制型最大相似度線性回歸. . . . . . . . . . . . . . . . . . . 14 2.4 正則化仿射轉換. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 L2規範正則化. . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.4.2 L1規範正則化. . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.3 最大事後機率線性回歸. . . . . . . . . . . . . . . . . . . . . . 19 2.5 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 三、基礎實驗. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1 Aurora-4基本設定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 基礎實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3 正則化仿射變換實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.1 基於模型的正則化仿射變換. . . . . . . . . . . . . . . . . . . 26 3.3.2 基於特徵向量的正則化仿射變換. . . . . . . . . . . . . . . . 28 3.4 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 四、變數選取方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1 原理簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.2 打包法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3 濾波器法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4 變數選取與模型調適. . . . . . . . . . . . . . . . . . . . . . . . . . . 36 五、基於模型變數選取方法之強健型語音辨識. . . . . . . . . . . . . . . . . . 37 5.1 離線程序. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.1.1 變數子集建立-主成份分析. . . . . . . . . . . . . . . . . . . . 38 5.1.2 變數子集建立-窗型變數集. . . . . . . . . . . . . . . . . . . . 39 5.2 線上程序. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.1 子集選取及模型調適-主成分分析. . . . . . . . . . . . . . . . 41 5.2.2 子集選取及模型調適-窗型變數集. . . . . . . . . . . . . . . . 43 5.3 Aurora-4實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.4 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 六、基於聲學特徵變數選取方法之強健型語音辨識. . . . . . . . . . . . . . . 47 6.1 變數子集-建立與選取. . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.1.1 變數子集建立-主成份分析. . . . . . . . . . . . . . . . . . . . 47 6.1.2 變數子集建立-窗型變數集. . . . . . . . . . . . . . . . . . . . 49 6.1.3 子集選取與模型調適. . . . . . . . . . . . . . . . . . . . . . . 49 6.2 Aurora-4 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.3 本章結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 七、結論與展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 7.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 7.2 展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 A、基於聲學特徵的仿射轉換最佳化法. . . . . . . . . . . . . . . . . . . . . . 58 A.1 一般最佳化法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 A.2 低維度最佳化法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 | |
| dc.language.iso | zh-TW | |
| dc.title | 基於變數選取聲學模型調適法之強健式語音辨識 | zh_TW |
| dc.title | Acoustic Model Adaptation with Variable Selection for Robust Speech Recognition | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 101-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 王小川(Hsiao-Chuan Wang),陳信宏(Sin-Horng Chen),簡仁宗(Jen-Tzung Chien),鄭秋豫(Chiu-Yu Tseng) | |
| dc.subject.keyword | 聲學模型調適,仿射轉換,變數選取, | zh_TW |
| dc.subject.keyword | Acoustic Model Adaptation,Affine Transformation,Variable Selection, | en |
| dc.relation.page | 65 | |
| dc.rights.note | 同意授權(全球公開) | |
| dc.date.accepted | 2013-07-17 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 電信工程學研究所 | zh_TW |
| 顯示於系所單位: | 電信工程學研究所 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-102-1.pdf | 3.35 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
