Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山
dc.contributor.authorYi-Sheng Linen
dc.contributor.author林義聖zh_TW
dc.date.accessioned2022-11-23T09:28:20Z-
dc.date.available2021-07-20
dc.date.available2022-11-23T09:28:20Z-
dc.date.copyright2021-07-20
dc.date.issued2021
dc.date.submitted2021-07-05
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140-
dc.description.abstract語音轉換是將一位語者所說出的語音轉換成聽起來像由另一位語者說出,但語音的語言內容維持不變。本論文專注於任意對任意語音轉換,亦即模型能將任意一位語者的聲音轉換成任意另一位語者的聲音,即使這兩位語者的語音都不存在於訓練資料集中。透過提供兩位語者各一段語音給任意對任意語音轉換模型,第一位語者語音的語言內容以及第二位語者語音中的語者相關資訊被提取出來,結合在一起後合成出轉換過後的語音;這是最具一般性的語音轉換設定,卻也最具挑戰性。使合成語音的語言內容清晰自然且與第一段語音完全相同,但聽起來非常像是由第二位語者所說出,便是任意對任意語音轉換的終極目標。 本論文透過文獻回顧,首先指出過去將語者表徵用於任意對任意語音轉換模型的潛在問題;接著討論自監督式學習所得語音表徵之潛力,以及其取代過去常用於語音轉換的其他語音表徵之可行性。最後,本論文提出一個全新的任意對任意語音轉換模型,啟發自基於範例的語音轉換,且模型乃基於類神經網路,因而能端到端學習並執行語音轉換;同時,新模型中利用專注機制解決過去使用語者表徵的各種方法之不足,也利用自監督式學習所得語音表徵進一步提升其表現。透過客觀評量及人類受試者主觀評量,結果顯示本論文所提出之新模型表現超越過去最佳的任意對任意語音轉換模型。另外,對於專注機制的分析,也使我們能窺探及解釋這個基於類神經網路的新模型如何做到語音轉換。zh_TW
dc.description.provenanceMade available in DSpace on 2022-11-23T09:28:20Z (GMT). No. of bitstreams: 1
U0001-0107202115490900.pdf: 2691448 bytes, checksum: 19f2fe0c718d14cc65239fdbb3a4ff6f (MD5)
Previous issue date: 2021
en
dc.description.tableofcontents中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 英文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 一、導論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 研究動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 研究方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 研究貢獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 章節安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 二、背景知識 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 深層類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 前饋類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.2 卷積類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.3 遞迴類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.4 自編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.5 專注機制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 語音表徵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 監督式學習之語音表徵 . . . . . . . . . . . . . . . . . . . . . . 20 2.2.2 自監督式學習之語音表徵 . . . . . . . . . . . . . . . . . . . . 21 2.3 語音轉換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.1 非平行語料語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.2 任意對任意語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 25 2.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 三、使用語者表徵於語音轉換任務上之潛在問題 . . . . . . . . . . . . . . . . 27 3.1 語者表徵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1 語者表徵之應用 . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2 語者表徵應用於語音轉換之潛在問題 . . . . . . . . . . . . . . . . . . 30 3.3 語者表徵用於語音轉換之強健性分析 . . . . . . . . . . . . . . . . . . 31 3.3.1 對抗式攻擊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 對抗式攻擊基於語者表徵之語音轉換實驗 . . . . . . . . . . . 34 3.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 四、自監督式學習語音表徵用於語音轉換之可行性 . . . . . . . . . . . . . . . 44 4.1 自監督式學習語音表徵用於音素辨識 . . . . . . . . . . . . . . . . . . 46 4.1.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.1.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2 自監督式學習語音表徵用於語者識別 . . . . . . . . . . . . . . . . . . 48 4.2.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3 自監督式學習語音表徵用於語音合成 . . . . . . . . . . . . . . . . . . 49 4.3.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 五、端對端基於範例的任意對任意語音轉換 . . . . . . . . . . . . . . . . . . . 52 5.1 先前技術 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1.1 拼接語音合成 . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1.2 基於範例之語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 56 5.1.3 基於語者表徵之任意對任意語音轉換 . . . . . . . . . . . . . . 57 5.2 模型架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2.1 來源編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.2 參考編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2.3 解碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.3 模型訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.1 訓練語料庫 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.2 最佳化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.3 初步訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.4 微調訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.4 與其他任意對任意語音轉換模型之比較實驗 . . . . . . . . . . . . . . 71 5.4.1 評量方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.4.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.5 模型組成元件之重要性探討實驗 . . . . . . . . . . . . . . . . . . . . . 77 5.5.1 有無跨專注模組對模型表現之影響 . . . . . . . . . . . . . . . 77 5.5.2 幾項模型設計對模型表現之影響 . . . . . . . . . . . . . . . . 79 5.5.3 參考語音數量對模型表現之影響 . . . . . . . . . . . . . . . . 83 5.6 專注機制及語音轉換機制分析 . . . . . . . . . . . . . . . . . . . . . . 83 5.6.1 專注圖分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.2 語音轉換機制探討 . . . . . . . . . . . . . . . . . . . . . . . . 87 5.7 音素組成差異於語音轉換之影響實驗 . . . . . . . . . . . . . . . . . . 92 5.7.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.7.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.8 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 六、結論與展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.1 研究貢獻與討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.2 未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
dc.language.isozh-TW
dc.subject基於範例zh_TW
dc.subject語音轉換zh_TW
dc.subject語音合成zh_TW
dc.subject專注機制zh_TW
dc.subjectSpeech synthesisen
dc.subjectVoice conversionen
dc.subjectExemplar-baseden
dc.subjectAttention mechanismen
dc.title端對端基於範例的任意對任意語音轉換zh_TW
dc.titleEnd-to-End Exemplar-Based Any-to-Any Voice Conversionen
dc.date.schoolyear109-2
dc.description.degree碩士
dc.contributor.oralexamcommittee李宏毅(Hsin-Tsai Liu),鄭秋豫(Chih-Yang Tseng),王小川,陳信宏,簡仁宗
dc.subject.keyword語音轉換,語音合成,專注機制,基於範例,zh_TW
dc.subject.keywordVoice conversion,Speech synthesis,Attention mechanism,Exemplar-based,en
dc.relation.page133
dc.identifier.doi10.6342/NTU202101228
dc.rights.note同意授權(全球公開)
dc.date.accepted2021-07-06
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept資訊工程學研究所zh_TW
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
U0001-0107202115490900.pdf2.63 MBAdobe PDF檢視/開啟
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved