Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99272
標題: 具有透視感知的室內家具物件層級影像客製化
Object-Level Image Customization for Indoor Furnishing with Perspective Awareness
作者: 陳瑾瑭
Chin-Tang Chen
指導教授: 莊永裕
Yung-Yu Chuang
關鍵字: 透視感知,影像客製化,3D 邊界框,擴散模型,室內場景,
perspective awareness,image customization,3D bounding box,diffusion model,indoor scene,
出版年 : 2025
學位: 碩士
摘要: 本研究提出一套具備透視感知能力的室內家具影像客製化方法,旨在提升物件插入結果的幾何一致性與視覺真實感。我們擴展 AnyDoor 框架,加入「Perspective BBox Branch」,以消失點對齊的 3D 邊界框投影作為條件輸入,引導 diffusion 模型生成符合場景透視的合成結果。同時,我們設計了互動式使用者介面,使用戶能標註消失點、生成一致的 3D BBox,並繪製參考物件遮罩,實現可控且直覺的物件放置流程。
我們使用 ScanNet++ 室內資料集進行模型訓練與驗證,實驗結果顯示,本方法在不犧牲視覺品質的情況下,有效提升透視一致性。量化指標(CLIP 與 DINO 分數)與質化視覺結果皆支持本方法的有效性。此外,透過對於未見資料(out-of-distribution)場景的測試,我們證實模型具備良好泛化能力。本研究展示了幾何感知引導在生成式模型中的潛力,為未來具備控制性與結構意識的影像合成方法奠定基礎。
We propose a perspective-aware framework for object-level image customization in indoor scenes, aiming to improve geometric consistency and visual realism in object insertion tasks. Building upon the AnyDoor architecture, we introduce the Perspective BBox Branch, which encodes vanishing-point-aligned 3D bounding box projections as conditional guidance for the diffusion model. To support controllable and user-friendly annotation, we also develop an interactive user interface that allows users to mark vanishing points, generate perspective-aligned 3D BBoxes, and draw reference object masks.
We train and evaluate our model on the ScanNet++ dataset, and experimental results demonstrate that our method significantly improves perspective alignment without compromising visual fidelity. Quantitative metrics (CLIP and DINO scores) and qualitative visualizations both confirm the effectiveness of our approach. Furthermore, tests on out-of-distribution indoor images show that the model generalizes well to real-world scenarios. Our work highlights the potential of geometry-aware conditioning in generative models and offers a practical foundation for future research on controllable indoor image synthesis.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99272
DOI: 10.6342/NTU202501818
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2025-08-22
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
15.23 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved