基於模擬至現實之遷移學習解決視覺定位中透過語言引導的領域適應問題

Ke-Jyun Wang; 王科鈞

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80536

標題:	基於模擬至現實之遷移學習解決視覺定位中透過語言引導的領域適應問題 Sim2real Transfer Visual Grounding Knowledge Through Language-Guided Patch-wise Domain Adaptation
作者:	Ke-Jyun Wang 王科鈞
指導教授:	徐宏民(Winston Hsu)
關鍵字:	領域隨機,領域適應,模擬至現實之遷移學習,視覺定位,人機互動, Domain Randomization,Domain Adaptation,Sim2Real Transfer,Visual Grounding,Human-Robot Interaction,
出版年 :	2021
學位:	碩士
摘要:	在人機互動的領域中，我們時常期望聰明的機器人能夠快速地適應環境的變化，並在視覺定位的任務上有好的表現，然而現今的解決方法都是利用收集新環境的資料來重新訓練我們的機器人，然而這樣的方法既沒效率又很花費人力與金錢。因此為了解決此問題，我們提出了一種基於模擬至現實之遷移學習的領域適應方法來幫助我們的機器人在零成本的模擬資料中學習。而為了要生成出訓練時所需的資料，我們透過強大的圖形渲染引擎來製作出逼近於現實模樣的虛擬照片，將這些虛擬照片和不需成本即可獲得的標住資訊組合成一個新的視覺定位資料集 YCB-Ref 來讓我們可以在機器人的視覺定位之任務訓練中使用。不過，如果直接使用這些生成的資料，會在過程中遇到一個虛實差異的困境，在這問題上，我們的方法也提出了兩個解決方案，第一個方案是混合式領域隨機方法，我們將現實世界中的背景套用到一個空背景的虛擬照片上，來增強機器人對於背景雜訊的區分。第二個方案是語言領導之小區塊領域適應方法，在這方法上，我們將虛擬圖片和現實照片中較重要的小區塊去強化他們的關聯性，以幫助機器人對於需要關注的小區塊能夠更敏感且更了解。最後，在實驗結果上，皆表示出我們的方法能夠很好的幫助機器人在模擬資料中去學習視覺定位的任務。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80536
DOI:	10.6342/NTU202104219
全文授權:	同意授權(限校園內公開)
顯示於系所單位：	資訊網路與多媒體研究所

文件中的檔案：

檔案	大小	格式
U0001-2610202112302600.pdf 授權僅限NTU校內IP使用（校園外請利用VPN校外連線服務）	1.3 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。