Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50681
標題: 使用深層學習的語音辨識中的跨語言聲學模型
Crosslingual Acoustic Modeling in Speech Recognition Using Deep Learning
作者: Hsiang-Hung Lu
呂相弘
指導教授: 李琳山
關鍵字: 多語言,語音辨識,跨語音資訊,深層學習,知識蒸餾,
Multilingual,Speech Recognition,Crosslingual Information,Deep Learning,Knowledge Distillation,
出版年 : 2016
學位: 碩士
摘要: 隨著巨量資料的發展,語音辨識相關的處理技術越來越成熟,人們渴望著聲音世代能帶來的魅力。此時,這些技術是可流動的,不再只是先進國家獨有的資源,而是世界上不同地區、各種語言使用者都可以享用的科技。這些不同語言的人類語音,雖各自成體系,卻都擁有一個共同點--都是人類能夠藉以互相理解的訊號媒介,承載著感情、觀念、資訊以及聲音的意義。
本論文探討的,是如何讓世界上不同語言的語料互相輔助學習,使得傳統的單語言語音辨識系統擴增成多語音辨識系統,找出其中潛藏的跨語言知識,希望藉以強化各個語言的語音辨識系統。本論文使用GlobalPhone全球音素語料庫,從純語言知識開始,加入資料導向的方法,最後合併了深層類神經網路中間層,由粗糙到細緻,一步一步探討如何可以將聲學模型中跨語言的共通知識合併起來。
一旦有了多語言辨識系統,深層學習的模型將會變得更為龐大,訓練過程也會更為複雜。為了容納龐大資訊並方便即時使用,本論文亦探討了知識蒸餾的方法,將原本多語音辨識系統的龐大模型,濃縮在較小的模型裡,成功提煉出更豐富的跨語言概括化資訊,幫助多語言語音辨識系統變得更加準確。
Speech Signal Processing technologies have gone mature as well as the Big Data Era. The beauty of sound draws high attention from the modern people. These resources are not occupied by only few strong companies, but shared by speakers in different regions, using different languages all over the world. The various types of human speech have their own unique properties, but they all share the same one: people rely on it to comprehend each others.
This thesis focuses on the cooperation of speech data from different languages to help enhance the conventional monolingual speech recognition system. The latent crosslingual information could be found and utilized. We use GlobalPhone Corpus to discuss about linguistic knowledge, data-driven methods and model sharing techniques. The research procedure starts from coarse phonetic level mergig to delicate model level sharing in a step-by-step way, achieving better results using crosslingual information.
Once multilingual speech recognition systems are built, the model should become deep and cumbersome. The training procedure should contain more complex and time-consuming techniques. To incorporate generalization ability lying inside the huge models with tiny, in-hand and real-time model size, one can use Knowledge Distillation to extract information, thus acheiving model compression.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50681
DOI: 10.6342/NTU201601009
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-105-1.pdf
  未授權公開取用
3.47 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved