語音轉換之雜訊強健性及隱私保護

Chien-yu Huang; 黃健祐

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80011

標題:	語音轉換之雜訊強健性及隱私保護 Noise Robustness and Privacy Protection in Voice Conversion
作者:	Chien-yu Huang 黃健祐
指導教授:	李琳山(Lin-shan Lee)
關鍵字:	語音轉換,雜訊強健性,對抗式攻擊, Voice Conversion,Noise Robustness,Adversarial Attack,
出版年 :	2021
學位:	碩士
摘要:	語音轉換（Voice Conversion）是不改變語句中的語言內容（Linguistic Content）或音素結構（Phoneme Structure），而去修改語音訊號中某些其他特定資訊的技術，其中以變換語者音色（Vocal Timbre）的語者轉換最為常見。近年來，隨著機器學習等相關技術的發展，我們已能夠達成任意對任意（Any-to-any）的語者轉換，亦即可將任意語句中的語者音色修改為任意一位其他語者的。然而，以現有技術而言，成功的語音轉換必須以乾淨而無雜訊的語音訊號作為輸入。另一方面，隨著技術不斷進步，語音轉換極有可能被用來偽造他人的聲音。因此，如何強化語音轉換技術在雜訊環境的表現，以及如何保護我們的語者音色不被「竊取」，便成為了相當重要的研究方向。本論文首先分析現有語音轉換模型在雜訊環境下的強健性（Robustness），在輸入訊號中加入雜訊，並衡量轉換結果的失真程度。為了提升模型的表現，本論文使用語音增強（Speech Enhancement）模型進行預處理，將訊號中的雜訊去除後，再輸入至語音轉換模型。同時，本論文也提出以去雜訊損失作為語音轉換模型的訓練目標，使其能夠在不利用上述預處理的情況下，依然能夠減少轉換的失真。實驗結果顯示，兩種方法皆能有效提升語音轉換模型在雜訊環境下的表現，並且端對端的去雜訊比表徵層級上的處理更能夠提升轉換結果的品質。接著，本論文提出三種針對語音轉換模型的對抗式攻擊（Adversarial Attack），透過在輸入訊號中加入人類無法感知的特殊雜訊，使得語音轉換模型無法成功，並以此作為保護個人語音不受濫用的手段。此外，本論文也使用語音增強以「抵禦」提出之攻擊方法。實驗結果顯示，即便是在模型參數未知的情況下，本論文所提出之攻擊方法仍然能夠大幅改變模型的轉換結果，使其語者音色與所期望者大相逕庭；另一方面，語音增強模型不僅能作用於人類感知中的一般雜訊，亦可在一定程度上抹除極微小的對抗式雜訊，並提升語音轉換模型在攻擊下的轉換效果。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80011
DOI:	10.6342/NTU202101515
全文授權:	同意授權(全球公開)
顯示於系所單位：	電機工程學系

文件中的檔案：

檔案	大小	格式
U0001-1607202115262400.pdf	3.34 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。