Please use this identifier to cite or link to this item:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79269| Title: | 使用BERT語意詞向量之三階段自動語音辨識 Using BERT Semantic Embeddings for 3-Stage ASR |
| Authors: | Yu-Huei Tseng 曾毓惠 |
| Advisor: | 張智星(Jyh-Shing Jang) |
| Keyword: | 自動語音辨識,序列到序列,自迴歸模型,音素後驗概率,語意詞向量, automatic speech recognition,sequence to sequence,autoregressive model,phonetic posteriorgrams,semantic embeddings, |
| Publication Year : | 2022 |
| Degree: | 碩士 |
| Abstract: | 本研究模擬嬰兒學習一門語言的流程並提出一個語意導向的三階段自動語音辨識(automatic speech recognition,ASR)架構,先從聽到的聲音訊號理解其代表的意義,隨著年紀的增長才會去學習對應的文字:第一階段利用傳統之DNN-HMM聲學模型將聲音特徵轉換為音素後驗概率(phonetic posteriorgrams,PPG),並於第二階段透過基於Transformer之E2E架構將PPG轉換為帶有語意之詞向量,最後將詞向量轉換為文字供人類後續使用,其中於第二階段採用教師強制(teacher forcing)和計畫採樣(scheduled sampling)有效地提升模型辨識的正確率,而為了解決噪音產生文字的問題,除了加入噪音資料進行訓練外,還額外使用熵(entropy)的特性改善。本研究也提出重新組句的資料擴增方法,擴增不同語意的上下文供模型學習。實驗結果顯示,本研究提出之三階段ASR架構在MATBN測試集上能取得11.65%的字元錯誤率(character error rate,CER),與基於Hybrid CTC/Attention之E2E模型之12.2%的字元錯誤率相比,相對下降4.5%。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79269 |
| DOI: | 10.6342/NTU202104593 |
| Fulltext Rights: | 同意授權(全球公開) |
| Appears in Collections: | 資訊工程學系 |
Files in This Item:
| File | Size | Format | |
|---|---|---|---|
| U0001-2912202113491300.pdf | 3.79 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
