以生成對抗網路實現根據聲音生成對應場景的圖片生成器

Chia-Hung Wan; 萬家宏

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71164

標題:	以生成對抗網路實現根據聲音生成對應場景的圖片生成器 Audio to Scene Image Synthesis using Generative Adversarial Network
作者:	Chia-Hung Wan 萬家宏
指導教授:	李宏毅
關鍵字:	生成對抗網路,聲音至圖像,跨模態生成, generative adversarial network,audio-visual,cross-modal generation,
出版年 :	2018
學位:	碩士
摘要:	人們在聽到一段聲音以後，能夠在腦內描繪出與聲音相對應的圖像，而本篇論文希望能夠讓機器也可以擁有類似的能力。使用最近被廣泛研究的條件式生成對抗網路 (Conditional Generative Adversarial Networks) ，將聲音當中的特徵抽取出來以後作為模型當中條件部份的輸入，可以使生成器 (Generator) 根據不同種類聲音的輸入，得到風格迥異的圖片。於訓練資料的蒐集上，在網路中可以得到許多由相機或是智慧型手機所拍攝出的影片，而這些影片當中的音訊與畫面大多都是有一致性的，然而有些時候鏡頭並沒有對到發出聲音的物體或場景，因此在本篇論文當中引入了另外的圖形辨識模型和前人研究中的聲音辨識模型來做資料清理，使聲音與其對應畫面的關聯性能更強一些，如此便可以從網路當中抓取大量的影片下來，把經過資料清理過後的聲音與畫面視為是乾淨的資料，並拿來對模型進行訓練。在參考他人的研究，對模型進行調整以後，可以在初始分數 (Inception Score) 上得到相較於真實資料而言，還不錯的成績，而在最後為了驗證此模型是真的有學習到聲音與圖片的對應關係，嘗試將聲音的大小進行放大縮小以後輸入至模型中，產生出的圖片確實是可以隨著聲音的大小而有不一樣的效果的。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71164
DOI:	10.6342/NTU201802068
全文授權:	有償授權
顯示於系所單位：	電機工程學系

文件中的檔案：

檔案	大小	格式
ntu-107-1.pdf 未授權公開取用	8.31 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。