語音增強與噪音感知聲學模型於強健性語音辨識

Pin-Yuan Chen; 陳品媛

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80128

標題:	語音增強與噪音感知聲學模型於強健性語音辨識 Speech-Enhanced and Noise-Aware Acoustic Modeling for Robust Speech Recognition
作者:	Pin-Yuan Chen 陳品媛
指導教授:	張智星(Jyh-Shing Roger Jang)
關鍵字:	強健性語音辨識,語音增強,噪音感知訓練,聯合訓練,Aurora-4, robust speech recognition,speech enhancement,noise-aware training,joint training,Aurora-4,
出版年 :	2021
學位:	碩士
摘要:	語音辨識系統在人機互動中扮演了一個舉足輕重的角色。然而，疊加噪音與語音迴響嚴重地影響系統的辨識效能，為實際環境的應用帶來諸多的障礙。為了提高系統對於噪音的強健性，降噪自編碼器（denoising autoencoder，DAE）作為前端訊號處理模型被前人廣大地採用，但是此方法可能存在語音增強模型的輸出與聲學模型所預期的輸入不一致，進而影響語音辨識任務的效能表現。本篇論文提出基於無網格最大互信息（lattice-free maximum mutual information，LF-MMI）的聯合訓練（joint training）框架，合併訓練語音增強模型與聲學模型，以加強兩者模型輸出入之間的一致性。同時，本框架實作噪音感知訓練（noise-aware training，NAT），其可將噪音特徵顯性地告知後端模型，以使系統對於噪音更具有強健性。透過在Aurora-4上進行的實驗，本論文所提之最佳模型詞錯誤率相對進步幅度可達38.6%。本論文所提出的方法也於真實環境所錄製語料AMI進行效能評估。然而，由於AMI為自發性語音且錄製於極具挑戰的環境，因此性能並沒有十分顯著的進步。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80128
DOI:	10.6342/NTU202101259
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊網路與多媒體研究所

文件中的檔案：

檔案	大小	格式
U0001-0407202114023900.pdf	3.53 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。