Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/101361
標題: 三維可供性之重建基於自我視角示範影片
3D Affordance Reconstruction from Egocentric Demonstration Video
作者: 刁一凡
Egil Diau
指導教授: 徐宏民
Winston H. Hsu
關鍵字: 基於影片的機器人學習,機器操弄的物體表徵可供性
Robot Learning from Video,Object Representation for Robot ManipulationAffordance
出版年 : 2026
學位: 碩士
摘要: 發展具備泛化能力的機器人技能至今仍極具挑戰性。受到心理學啟發,「可供性」(affordance)已被視為一種具潛力的中介表徵,可用來引導機器人進行物體操控。然而,多數現有研究主要聚焦於來自影片的二維可供性,忽略了攝影機位置、絕對空間座標、深度與幾何結構等關鍵空間資訊。為此,本研究提出一種無需訓練的創新方法,可從第一人稱操作示範影片中建構三維可供性。針對第一人稱影片中缺乏靜態高品質畫面而導致三維重建困難的問題,我們採用三維基礎模型 DUST3R,能在不使用 COLMAP 的情況下,從稀疏影像中重建場景。我們首先以手部偵測技術擷取接觸時間與二維接觸點,再透過 DUST3R 還原互動場景,並將接觸點以高斯熱圖投影至三維空間;同時,我們利用三維手部姿態估計取得手部軌跡,並透過線性回歸整合其時空動態,建構出完整的人物與物體互動歷程。實驗結果顯示,我們的方法能有效應用於 Ego4D-Exo 資料集中的七項真實世界料理任務,展現其於複雜操控場景中建構三維可供性的潛力。
Developing robots capable of generalized skills remains an exceedingly challenging task. Drawing from psychology, the concept of affordance has emerged as a promising intermediate representation to guide robot manipulation. However, prior work has primarily focused on 2D affordances from video, neglecting critical spatial information such as camera positioning, absolute position, depth and geometry. In this paper, we present a novel training-free method that constructs 3D affordances from egocentric demonstration videos. To address the challenge of insufficient static, high-quality frames for 3D reconstruction in egocentric videos, we employ the 3D foundational model DUST3R, which reconstructs scenes from sparse images without requiring COLMAP. We analyze videos using hand detection to identify contact times and 2D contact points, reconstruct these interactions using DUST3R, and project the 2D contact points into 3D space using gaussian heatmaps. Finally, we derive hand trajectories through 3D hand pose estimation and process them using linear regression to integrate the spatiotemporal dynamics of human-object interactions. We demonstrate the effectiveness of our method on the ego4d-exo dataset for seven real-world hand-object manipulation tasks in cooking scenes.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/101361
DOI: 10.6342/NTU202600215
全文授權: 同意授權(全球公開)
電子全文公開日期: 2026-01-28
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-114-1.pdf5.05 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved