Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/93806
標題: 離散化語音自監督模型特徵用於多語言語音辨識
Discretized Speech Self-Supervised Model Representation for Multilingual Automatic Speech Recognition
作者: 王式珩
Shih-Heng Wang
指導教授: 李宏毅
Hung-Yi Lee
關鍵字: 語音辨識,自監督學習,離散特徵,
ASR,Self supervise learning,Discretized representation,
出版年 : 2024
學位: 碩士
摘要: 語音自監督學習模型在各種語音處理任務中展示了卓越的能力。使用語音自監督模型連續特徵訓練模型雖然性能強大,但卻受限於其高計算和存儲成本。另一方面,雖然使用語音自監督模型離散化特徵訓練模型的性能有所下降,卻可通過去重複化以及字節對編碼,大量降低了傳輸和存儲成本,並提高了輸入序列的訓練效率。為了提升使用語音自監督模型離散化特徵訓練自動語音識別模型中的性能,我們提出了一種新穎的融合機制,整合了兩種離散特徵。這種融合機制保留了離散特徵的所有優點,同時通過整合離散特徵的互補信息來增強模型的性能。此外,我們還探索了「自增強」離散特徵,它對單一連續特徵進行轉換,消除了融合機制對多個語音自監督學習模型的依賴,還進一步降低了推理成本。在包括LibriSpeech和ML-SUPERB在內的基準測試上的實驗結果顯示,與非融合的基準比較對象相比,我們提出的方法有高達19%和24%的字符錯誤率相對進步量,證明了我們方法的有效性。
Self-supervised learning (SSL) models have shown exceptional capabilities across various speech-processing tasks. Continuous SSL representations are effective but suffer from high computational and storage demands. On the other hand, discrete SSL representations, although with degraded performance, reduce transmission and storage costs, and improve input sequence efficiency through de-duplication and subword-modeling. To boost the performance of discrete representations for ASR, we introduce a novel fusion mechanism that integrates two discrete representations. The fusion mechanism preserves all the benefits of discrete representation while enhancing the model's performance by integrating complementary information. Additionally, we explore ''self-augmented'' discrete representations, which apply transformations to a single continuous SSL representation, eliminating the fusion mechanism's dependency on multiple SSL models and further decreasing its inference costs. Experimental results on benchmarks, including LibriSpeech and ML-SUPERB, indicate up to 19% and 24% relative character error rate improvement compared with the non-fusion baseline, validating the effectiveness of our proposed methods.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/93806
DOI: 10.6342/NTU202401809
全文授權: 同意授權(全球公開)
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-112-2.pdf3.91 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved