請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67246| 標題: | 使用多模態深層自編碼器融合視覺與語音特徵強化個人相片之語意檢索 Semantic Retrieval of Personal Photos Using Multimodal Deep Autoencoder Fusing Visual and Speech Features |
| 作者: | Hung-Tsung Lu 盧宏宗 |
| 指導教授: | 李琳山 |
| 關鍵字: | 影像檢索,語音標註,分佈式詞彙表示法,段落向量,卷積式類神經網路,深層自編碼器,隨機漫步,融合特徵, image retrieval,speech annotation,distributed word representation,paragraph vector,convolutional neural network,deep autoencoder,random walk,fused features, |
| 出版年 : | 2017 |
| 學位: | 碩士 |
| 摘要: | 本論文主要探討的是在加入使用者稀疏語音標註的條件下,進行個人相片語意檢索(semantic retrieval of personal photos)的方法。由於近年數位相機以及智慧型手機等行動裝置十分普及,使用者通常會快速累積大量的個人相片,如何有效率的對數量龐大的相片資料庫進行瀏覽與檢索是一個十分重要的問題。一般使用者通常偏好使用語意式查詢指令(semantic query)來對相片進行搜尋,例如:「母親節聚餐」。但機器基本上沒有能力掌握相片中攜帶的這類語意,除非使用者加以標註,因此我們設定在使用者拍攝相片的同時,可以使用麥克風針對相片進行語音標註;這樣會較鍵盤輸入文字便利許多,但使用者並不會將所有的照片皆加上語音標註。因此本論文將主題設定為使用者輸入稀疏語音標註條件下之個人相片語意檢索,意即僅有少數相片標上語音標註的情境。
本論文選擇使用以主題模型為基礎的實作方式,引入數種以深層學習為基礎的特徵抽取法,利用深層卷積式類神經網路對相片進行影像特徵抽取,同時使用分佈式詞彙表示法及段落向量模型針對相片語音標註的詞圖分別進行語音特徵抽取,最後以多模態深層自編碼器的主題模型,針對影像及語音特徵進行整合,並以此模型訓練出具備「潛藏主題」的瓶頸向量建構檢索模型。 此外,本論文亦將從主題模型檢索出的首次檢索結果(first-pass retrieval results),使用字詞頻率期望值、局部與全域影像特徵、深層卷積式類神經網路影像特徵、段落向量與多模態自編碼器瓶頸特徵分別計算相片之間的相似度,再套用隨機漫步模型(random walk) 演算法,使相似度高的相片獲得相近的相關分數(relevance score),進而達成重新排序的效果,使整體檢索效能更進一步的提 升。 最後,為使後續研究能夠更順利進行,本論文在最後將微軟COCO圖片標題資料庫加以中文化,並且將此中文版語料建檔,做為後續研究之用。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/67246 |
| DOI: | 10.6342/NTU201700762 |
| 全文授權: | 有償授權 |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-106-1.pdf 未授權公開取用 | 5.24 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
