Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79269
Title: 使用BERT語意詞向量之三階段自動語音辨識
Using BERT Semantic Embeddings for 3-Stage ASR
Authors: Yu-Huei Tseng
曾毓惠
Advisor: 張智星(Jyh-Shing Jang)
Keyword: 自動語音辨識,序列到序列,自迴歸模型,音素後驗概率,語意詞向量,
automatic speech recognition,sequence to sequence,autoregressive model,phonetic posteriorgrams,semantic embeddings,
Publication Year : 2022
Degree: 碩士
Abstract: 本研究模擬嬰兒學習一門語言的流程並提出一個語意導向的三階段自動語音辨識(automatic speech recognition,ASR)架構,先從聽到的聲音訊號理解其代表的意義,隨著年紀的增長才會去學習對應的文字:第一階段利用傳統之DNN-HMM聲學模型將聲音特徵轉換為音素後驗概率(phonetic posteriorgrams,PPG),並於第二階段透過基於Transformer之E2E架構將PPG轉換為帶有語意之詞向量,最後將詞向量轉換為文字供人類後續使用,其中於第二階段採用教師強制(teacher forcing)和計畫採樣(scheduled sampling)有效地提升模型辨識的正確率,而為了解決噪音產生文字的問題,除了加入噪音資料進行訓練外,還額外使用熵(entropy)的特性改善。本研究也提出重新組句的資料擴增方法,擴增不同語意的上下文供模型學習。實驗結果顯示,本研究提出之三階段ASR架構在MATBN測試集上能取得11.65%的字元錯誤率(character error rate,CER),與基於Hybrid CTC/Attention之E2E模型之12.2%的字元錯誤率相比,相對下降4.5%。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79269
DOI: 10.6342/NTU202104593
Fulltext Rights: 同意授權(全球公開)
Appears in Collections:資訊工程學系

Files in This Item:
File SizeFormat 
U0001-2912202113491300.pdf3.79 MBAdobe PDFView/Open
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved