基於機率式潛藏語意分析之聲學特性及其在語音辨識上之應用

I-Hung Lin; 林宜鴻

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/46748

標題:	基於機率式潛藏語意分析之聲學特性及其在語音辨識上之應用 Acoustic Characteristics Based on Probabilistic Latent Semantic Analysis with Applications in Speech Recognition
作者:	I-Hung Lin 林宜鴻
指導教授:	李琳山
關鍵字:	機率式潛藏語意分析,多層感知器,向量量化,潛藏聲學特性,重新計分,聲韻母語段, PLSA,MLP,VQ,Acoustic Characteristics,Rescoring,Initial-Final Segmant,
出版年 :	2010
學位:	碩士
摘要:	近年來有越來越多的研究致力於使用非督導式來抽取聲學的特徵，本研究以此為目標，嘗試提出使用機率式潛藏語意分析來抽取聲學特徵，而本研究所抽取的目標為不同音框數的語段(segment)，抽出具有相同數目可比較的潛藏聲學特性(Acoustic Characteristic)。這些語段恰好會對應一個聲母或是韻母，當我們針對每個語段抽取完這些潛藏聲學特性後，我們使用各種方法來確認這些潛藏聲學特性是否具有意義。首先我們使用最小距離法來分群，可以明顯看出這些潛藏聲學特性用於分群時已經可以看出顯著的效果，相近的聲韻母會先被群聚在一起，然而當我們要細分到每個聲韻母時，最小距離法仍稍嫌不夠，經由本研究的錯誤樣式分析可以知道，每個潛藏聲學特性帶有不一樣的鑑別特性，再加上音框順序性尚未被加入模型，因此我們引進了多層感知器來當作分類器，並重新設計了模型訓練架構。在多層感知器的分類架構下，本研究先從串接不同數量維度的特性著手，因為不同數量維度的特性代表了所抽取的資訊的精細程度不同，利用它們的互補關係來增加聲韻母辨識正確率；再來本研究改變了抽取潛藏聲學特性的架構，我們將梅爾倒頻譜係數分割成好幾個部份，分開向量量化並抽取潛藏聲學特性，最後再串接所有子分割的潛藏聲學特性，期望能夠減少向量量化時的失真影響；另外，為了要解決本模型尚未加入音框順序性的問題，本研究從語段編碼上面著手，我們將相鄰的兩音框編碼合併在一起，重新編碼成一個新的編碼，再利用機率式潛藏語意分析，並串接各個子分割的潛藏聲學特性，這樣所抽取出來的潛藏聲學特性更能代表一個語段的性質；到目前為止我們已有了單連和雙連編碼潛藏聲學特性，這些潛藏聲學特性並包含了各種不同數目的抽取方式，本研究再將其全部串接起來，使得本研究能夠得到最好的聲韻母辨識正確率69.1%。最終，本研究將這樣的潛藏聲學特性和傳統的大字彙辨識系統相互結合，使用兩階段辨識的方式，將潛藏聲學特性的聲韻母事後機率取對數後，並選取適當的權重，將其加入到第一階段的候選答案上，比起基礎實驗的結果能夠得到6.30%的相對進步率，從實驗結果可以知道，本研究所抽取的潛藏聲學特性具有聲學上的意義，其反應在大字彙辨識上的改善已經相當顯著。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/46748
全文授權:	有償授權
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-99-1.pdf 未授權公開取用	1.94 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。