Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94116
標題: 個人化文字轉語音:針對新語者、口音及語言的快速輕量化少樣本適應
Personalized Text-to-Speech Synthesis: Lightweight and Fast Few-Shot Adaptation for Unseen Speakers, Accents and Languages
作者: 黃淞楓
Sung-Feng Huang
指導教授: 李琳山
Lin-shan Lee
共同指導教授: 李宏毅
Hung-yi Lee
關鍵字: 文字轉語音生成,少樣本適應,元學習,適應性模型剪枝,語者適應,跨語言適應,
Text-to-Speech Synthesis,Few-Shot Adaptation,Meta-Learning,Adaptive Model Pruning,Speaker Adaptation,Cross-Lingual Adaptation,
出版年 : 2024
學位: 博士
摘要: 在這篇博士論文中,我們提出了一項關於推進文字轉語音(TTS)系統實現有效個性化的全面研究,特別是在需要少量樣本學習和零樣本學習的情境中。核心重點在於開發TTS系統中語音克隆和跨語言適應的新方法,旨在解決有限數據下快速適應的迫切需求。
在第一章中,我們為研究奠定了基礎,強調了為個別語音和語言定制TTS系統的重要性。這為我進行少量樣本學習、語音克隆和跨語言TTS適應的探索奠定了基礎。我的目標是有效地使用最少的訓練樣本,解決將TTS系統適應新語音和新語言所面臨的挑戰。
第二章對相關文獻進行了全面的回顧,深入探討了TTS技術的演進。這包括對端到端神經TTS模型、語音合成技術、多語言TTS和各種適應方法的深入討論。值得注意的是,我們考察了TTS與元學習的交叉點,特別是在跨語言語音克隆的背景下,這為我大部分研究提供了基礎。
第三章詳細介紹了我的研究架構基礎,以Transformer模塊和FastSpeech 2為中心。我們探索了FastSpeech 2在多語音和多語言應用中的適應性以及對訓練期間未遇到的領域的微調。
在第四章中,我們介紹了Meta-TTS,這是一種創新的用於少量樣本語音適應TTS的元學習方法。該章深入探討了Meta-TTS的訓練方法、微調策略和一整套評估指標。通過廣泛的實驗,我們展示了Meta-TTS在使用有限數據進行語音克隆時達到高度語音相似性和自然性的有效性。
第五章轉向個性化、輕量級TTS,通過自適應結構化剪枝。我們介紹了自適應結構化剪枝,這是一種在微調TTS模型時提高參數效率和計算速度的方法。這項技術作為Meta-TTS的補充,專注於提高微調效率和模型性能,對於高效和有效的TTS系統至關重要。
在第六章中,我們探討了使用可轉移音素嵌入的少量樣本跨語言TTS,提出了一種超越現有轉移學習方法的新方法。該章包括嚴格的實驗評估,展示了音素嵌入轉移在語言適應任務中的有效性。
論文在第七章結束,我們總結了這項研究對TTS領域的重大貢獻。我們的工作不僅推進了語音克隆和跨語言適應的最新技術,而且還為個性化TTS應用開辟了新途徑,特別是在資源受限的設置中。
In this dissertation, we present a comprehensive study on advancing text-to-speech (TTS) systems towards effective personalization, especially in scenarios requiring few-shot and zero-shot learning. The core focus lies in developing novel approaches for voice cloning and cross-lingual adaptation in TTS systems, aiming to address the pressing need for rapid adaptability with limited data.
In the initial chapter, we establish the groundwork for the study, emphasizing the significance of customizing TTS systems for individual voices and languages. This sets the stage for my exploration into few-shot learning, voice cloning, and cross-lingual TTS adaptation. My objective is to tackle the challenges associated with adapting TTS systems to new voices and languages efficiently, using minimal training samples.
Chapter 2 provides a thorough review of the relevant literature, delving into the evolution of TTS technology. This includes an in-depth discussion of end-to-end neural TTS models, vocoder technologies, multilingual TTS, and various adaptation methods. Notably, we examine the intersection of TTS and meta-learning, particularly in the context of cross-lingual voice cloning, which forms the basis for much of my research.
The third chapter details the architectural foundations of my research, centered around the Transformer block and FastSpeech 2. We explore the adaptations of FastSpeech 2 for multi-speaker and multi-lingual applications and its fine-tuning for domains not encountered during training.
In Chapter 4, we introduce Meta-TTS, an innovative meta-learning approach for few-shot speaker adaptive TTS. This chapter delves into the Meta-TTS training methodology, fine-tuning strategies, and a comprehensive set of evaluation metrics. Through extensive experiments, we demonstrate the effectiveness of Meta-TTS in achieving high speaker similarity and naturalness in voice cloning with limited data.
Chapter 5 shifts focus to personalized, lightweight TTS through adaptive structured pruning. We present adaptive structured pruning, a method that improves parameter efficiency and computational speed in fine-tuning TTS models. This technique, complementing Meta-TTS, focuses on enhancing fine-tuning efficiency and model performance, crucial for efficient and effective TTS systems.
In Chapter 6, we explore few-shot cross-lingual TTS using transferable phoneme embedding, proposing a new methodology that surpasses existing transfer learning approaches. This chapter includes rigorous experimental evaluation, showcasing the effectiveness of phoneme embedding transfer in language adaptation tasks.
The dissertation concludes with Chapter 7, where we summarize the significant contributions of this research to the field of TTS. Our work not only advances the state-of-the-art in voice cloning and cross-lingual adaptation but also opens new avenues for personalized TTS applications, particularly in resource-constrained settings.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94116
DOI: 10.6342/NTU202402788
全文授權: 同意授權(限校園內公開)
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-112-2.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
7.06 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved