Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/1180
標題: 分段式語音詞向量:將語句信號自動表示為語音詞向量序列
Segmental Audio Word2Vec: Representing Utterances as Sequences of Audio Word Vectors
作者: Yu-Hsuan Wang
王育軒
指導教授: 李琳山
關鍵字: 非督導式學習,口述語彙偵測,語音詞向量,
Unsupervised Learning,Spoken Term Detection,Audio Word2Vec,
出版年 : 2018
學位: 碩士
摘要: 在自然語言處理中,詞向量(Word2Vec)可以用於將一個詞表示為一個一定 維數(Dimensionality)的實數向量並帶有語意資訊(語意接近的詞在向量空間中 會接近),這些向量所帶的語意並在向量空間上具有向量運算的可平移特性。另 一方面,語音詞向量(Audio Word2Vec)則能使用一定維數的實數向量表示語音 詞(一個詞的語音訊號,Spoken Word),並帶有音素結構的資訊。前人所提出的 語音詞向量雖然可以在非督導式學習的框架下訓練,然而訓練語料之音訊需要事 先標註好詞邊界。
在本論文中,我們將語音詞向量由語音詞的層級提升至整句語句的層級。 在本論文所提出的模型中,同時針對語音詞切割與語音詞向量訓練進行訓練, 讓此兩者能夠相互增強。藉由引入一切割門限至序列對序列自動編碼器,本 論文提出全新的分段式序列對序列自動編碼器(Segmental Sequence-to-Sequence Autoencoder, SSAE),並用深層強化學習(Deep Reinforcement Learning)加以訓 練。藉由此一方法,一語句能夠被自動切割為一系列的語音詞,再轉化為一系列 之語音詞向量。本論文之實驗使用詞切割與口述語彙偵測來探討所提出的分段式 序列對序列自動編碼器之效能,並在四種語言上(英文、捷克文,法文與德文) 進行實驗,實驗結果顯示此模型具有比以往方法更佳的效能。
除了分段式序列對序列自動編碼器外,本論文亦分析一種遞迴式類神經網路 內部之訊號:門限激發訊號;並發現此訊號在非督導式學習框架下與輸入音訊中 語音特性之邊界(如音素邊界)具有強烈關聯,因此可以廣泛應用於所有非督導 式學習下的遞迴式類神經網路模型中。
URI: http://tdr.lib.ntu.edu.tw/handle/123456789/1180
DOI: 10.6342/NTU201801733
全文授權: 同意授權(全球公開)
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-107-1.pdf5.21 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved