請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/1180| 標題: | 分段式語音詞向量:將語句信號自動表示為語音詞向量序列 Segmental Audio Word2Vec: Representing Utterances as Sequences of Audio Word Vectors |
| 作者: | Yu-Hsuan Wang 王育軒 |
| 指導教授: | 李琳山 |
| 關鍵字: | 非督導式學習,口述語彙偵測,語音詞向量, Unsupervised Learning,Spoken Term Detection,Audio Word2Vec, |
| 出版年 : | 2018 |
| 學位: | 碩士 |
| 摘要: | 在自然語言處理中,詞向量(Word2Vec)可以用於將一個詞表示為一個一定 維數(Dimensionality)的實數向量並帶有語意資訊(語意接近的詞在向量空間中 會接近),這些向量所帶的語意並在向量空間上具有向量運算的可平移特性。另 一方面,語音詞向量(Audio Word2Vec)則能使用一定維數的實數向量表示語音 詞(一個詞的語音訊號,Spoken Word),並帶有音素結構的資訊。前人所提出的 語音詞向量雖然可以在非督導式學習的框架下訓練,然而訓練語料之音訊需要事 先標註好詞邊界。
在本論文中,我們將語音詞向量由語音詞的層級提升至整句語句的層級。 在本論文所提出的模型中,同時針對語音詞切割與語音詞向量訓練進行訓練, 讓此兩者能夠相互增強。藉由引入一切割門限至序列對序列自動編碼器,本 論文提出全新的分段式序列對序列自動編碼器(Segmental Sequence-to-Sequence Autoencoder, SSAE),並用深層強化學習(Deep Reinforcement Learning)加以訓 練。藉由此一方法,一語句能夠被自動切割為一系列的語音詞,再轉化為一系列 之語音詞向量。本論文之實驗使用詞切割與口述語彙偵測來探討所提出的分段式 序列對序列自動編碼器之效能,並在四種語言上(英文、捷克文,法文與德文) 進行實驗,實驗結果顯示此模型具有比以往方法更佳的效能。 除了分段式序列對序列自動編碼器外,本論文亦分析一種遞迴式類神經網路 內部之訊號:門限激發訊號;並發現此訊號在非督導式學習框架下與輸入音訊中 語音特性之邊界(如音素邊界)具有強烈關聯,因此可以廣泛應用於所有非督導 式學習下的遞迴式類神經網路模型中。 |
| URI: | http://tdr.lib.ntu.edu.tw/handle/123456789/1180 |
| DOI: | 10.6342/NTU201801733 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-107-1.pdf | 5.21 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
