Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/49897
標題: 使用深度學習以改善語音評分之方法與比較
Improving Speech Assessment Using Deep Neural Networks
作者: Chun-Hao Fan
范君豪
指導教授: 張智星(Jyh-Shing Roger Jang)
關鍵字: 類神經網路,語音評分,發音評分,電腦輔助語言學習,口說發音輔助學習,
neural network,speech assessment,pronunciation scoring,computer assisted language learning (CALL),computer assisted pronunciation training (CAPT),
出版年 : 2016
學位: 碩士
摘要: 語句發音標準與否是溝通上重要的一環,也與欲表達的意義有著密不可分的關係,不同但類似的發音可能代表了不同的含意,因此,發音的標準性在語言學習中有其重要的地位。
本論文中共分為兩大部份,分別為利用類神經網路模型來分類音素以及利用類神經網路模型的分類結果來進行英語語句的評分,並建立一套以類神經網路模型為基底的英文語音評分系統,藉以達到電腦輔助語言學習之功用。
類神經網路及深度學習部分,本論文利用了MFCC特徵及filter-bank特徵來比較其在深度學習中的效果,同時也測試了多種類神經網路的參數組合,在找出對於訓練資料集比較合適的參數組合後便會以大維度特徵來進一步實驗,最終的實驗結果以使用了MFCC的大維度特徵為最好,其類神經網路模型的音素辨識率可達73.33 %。
語音評分的部分,本論文以HMM-GMM為基底的語音評分系統來當作比較及改善的對像,本論文提出了max-gap評分方法與adaptive-k評分方法以利用類神經網路模型的輸出結果來進行語音評分。在語音評分上的測試結果顯示,adaptive-k評分方法相較於以HMM-GMM為基底的語音評分系統在短句評分中有較好的表現,但在長句評分中仍待改善,整體而言,adaptive-k評分方法相對於以HMM-GMM為基底的語音評分系統仍有所改進。
Pronunciation plays an important role in communication. Similar but different pronunciations may lead to different meanings. Therefore, correct pronunciation is a very important part of language learning.
The thesis is divided into two parts. The first part describes the use of deep neural networks (DNN) to classify phonemes. The second part explain how we can use the DNN output to perform speech assessment. Building a DNN-based speech assessment system is the main goal of this thesis.
In terms of the use of DNN, we have compared the features of MFCC and Mel-filter bank coefficients. Moreover, we have tried a number of DNN configurations in order to find the best setting. Our main finding is that large-dimension features can give better accuracy. In our experiments, the best recognition rate of DNN models can be as high as 73.33% using large-dimension MFCC features.
In terms of speech assessment, we have proposed two methods, max-gap and adaptive-k, to use the DNN’s output for speech assessment. A conventional HMM-GMM based speech assessment system is regard as a baseline. Our experiments demonstrate that, adaptive-k outperforms HMM-GMM for short sentence assessment. For long sentences, adaptive-k and HMM-GMM have comparable performance. In general, adaptive-k is still better than HMM-GMM for speech assessment.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/49897
DOI: 10.6342/NTU201602150
全文授權: 有償授權
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
ntu-105-1.pdf
  目前未授權公開取用
3.65 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved