Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電機工程學系
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80106
Title: 以激活函數引導與自適應實例正規化達成無監督式語音轉換
Unsupervised Voice Conversion using Activation Guidance and Adaptive Instance Normalization
Authors: Yen-Hao Chen
陳延昊
Advisor: 李宏毅(Hung-yi Lee)
Keyword: 語音轉換,深度學習,激活函數,自適應實例正規劃,
voice conversion,deep learning,activation functions,instance normalization,
Publication Year : 2021
Degree: 碩士
Abstract: "近年來,深度學習在語音轉換(Voice Conversion, VC)的應用與研究發展越來越多。從一對一語者的語音轉換(One-to-one)、多對多(Many-to-many)、任意對任意(Any-to-any),以及一次性樣本(One-shot)語音轉換的研究逐漸成熟。許多語音轉換模型使用了表徵解纏的技術來分解一句語音中的語者特性以及文字內容,接著他們將文字內容,結合目標語者的語者特性來合成出轉換後的語音,達成語音轉換任務。在語音解纏的過程,我們會得到帶有語者特色的語者表徵(Speaker Embedding)及帶有文字內容特色的內容表徵 (Content Embedding)。一個常見的作法是,在內容表徵的抽取過程,加上資訊瓶頸讓語者資訊被過濾掉,但如果瓶頸加得太強,可能導致內容資訊的遺失,造成轉換出的語音品質不佳;如果瓶頸不夠強,又可能會讓語者資訊被過濾的不完全,導致轉換出的語音仍然帶有來源語者的特色,造成轉換失敗;這個現象即是語音解纏能力(Disentangling Ability)和語音重構能力(Reconstruction Ability)的取捨(Trade-off)。本論文第一個部份提出了使用單一編碼器與自適應實例正規化(Adaptive Instance Normalization, AdaIN)來達成語音轉換,有效改善了前作在語音轉換的模型記憶體應用,不但大幅減少了前作模型的記憶體使用率以及運算速度,同時改善模型的輸出品質、語者相似度。在本論文的第二部分,我們嘗試探討不同的激活函數(Activation Function)對於語音表徵的解纏效果。我們使用前面提到的單一編碼器的架構,在其內容表徵上加入不同的激活函數,觀察不同激活函數在語音解纏能力和語音重構能力的取捨中,會帶來什麼不同的影響。實驗結果展示,與基礎模型(Baseline)相比,使用單一編碼器,搭配特定的S型函數(Sigmiode Function),能同時改善讓語音解纏能力和語音重構能力;在使用者主觀測試中,我們提出的方法也在語音品質的平均意見分數(Mean Opinion Score, MOS)和語者相似度分數取得最好成績。"
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80106
DOI: 10.6342/NTU202101337
Fulltext Rights: 同意授權(全球公開)
Appears in Collections:電機工程學系

Files in This Item:
File SizeFormat 
U0001-0807202103045500.pdf6.12 MBAdobe PDFView/Open
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved