Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/54200
標題: 音型之交互增強及多層次音型深層類神經網路使用於非督導式語音特徵抽取與口述語彙發掘
Mutual Reinforcement for Acoustic Tokens and Multi-level Acoustic Tokenizing Deep Neural Network for Unsupervised Speech Feature Extraction and Spoken Term Discovery
作者: Cheng-Yu Tsai
蔡政昱
指導教授: 李琳山
關鍵字: 非督導式語音特徵抽取,非督導式口述語彙發掘,
Unsupervised Speech Feature Extraction,Unsupervised Spoken Term Discovery,
出版年 : 2015
學位: 碩士
摘要: 本論文主要探討語音處理中兩個非督導式學習的核心問題──非督導式語音特徵抽取(Unsupervised Speech Feature Extraction) 及非督導式口述語彙發掘(Unsupervised Spoken Term Discovery)。現今成功的語音辨識技術,皆建立在高度督導式的學習架構上,不但仰賴大量對於欲辨識語言的專業知識,亦需要大量具有人工標註的訓練語料。然而此兩者皆需付出相當成本才能夠取得,在當前的巨量資料(Big Data) 時代下,每日都有無窮無盡的新語音訊號被產生出來,希望以人工方式一一為每筆資料加上標註可說是相當不切實際的。因此,不需任何人工標註的非督導式學習在近年獲得愈來愈多的關注,它不但免除了人工標註之成本,同時這樣的學習方式也更貼近人類嬰幼兒的語言學習過程。
針對非督導式口述語彙發掘,本論文主要以多層次音型產生器(Multi-level Acoustic Tokenizer, MAT) 所自動習得的音型(Acoustic Tokens) 進行改良。我們使用自動習得之音型與其型別(Type) 訓練一遞迴式類神經網路語言模型(Recurrent Neural Network Language Model, RNNLM),抽取每個音型的詞嵌入(Word Embedding),並探討詞嵌入對於音型的型別歸類錯誤之修正能力。我們也提出了多層次音型之交互增強(Mutual Reinforcement for Acoustic Tokens),將多套獨立的音型所攜帶的聲學及語言資訊(acoustic and linguistic information) 整合起來,以產生更佳的音型產生器所需的訓練用初始值(initialization),以便習得更佳的音型。
本論文並提出多層次音型深層類神經網路(MAT-Deep Neural Network, MATDNN),包含了一多層次音型產生器以及一多目標深層類神經網路(Multi-target Deep Neural Network, MDNN),同時將非督導式語音特徵抽取和非督導式口述語彙發掘兩項工作(task) 整合在一起考慮,利用迭代學習架構(Iterative Learning Framework) 將其中一方的結果用於另一方的訓練之中,使其在兩個不同問題上得到的成果能夠彼此互惠,促成更多的進步。最後我們把這整套架構方法用在2015年Interspeech的零標註語音競賽(Zero Resource Speech Challenge)上,使用其語料庫以及評估度量,在非督導式語音特徵抽取及非督導式口述語彙發掘的兩個賽項上都獲得比基準數據(baseline)的JHU系統更好的結果。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/54200
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-104-1.pdf
  未授權公開取用
3.9 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved