應用於三維道路物件偵測之體素與像素融合網路

Chia-Hung Wang; 王嘉鴻

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/82189

標題:	應用於三維道路物件偵測之體素與像素融合網路 Voxel-Pixel Fusion Network for 3D On-road Object Detection
作者:	Chia-Hung Wang 王嘉鴻
指導教授:	傅立成(Li-Chen Fu)
共同指導教授:	蕭培墉(Pei-Yung Hsiao)
關鍵字:	感知融合,三維物件偵測,自動駕駛,電腦視覺,深度學習,人工智慧, sensor fusion,3D object detection,autonomous driving,computer vision,deep learning,artificial intelligence,
出版年 :	2021
學位:	碩士
摘要:	傳統上，汽車工業為硬體導向產業，近年來，深度學習爆炸性的成長，將電腦視覺推向嶄新的境界。因此，自動駕駛的可能性不再是不可觸及的夢想。其中自動駕駛的第一環節即是感知環境，常見的感測器如光達、攝影機等，利用各種感測器的提供的資訊偵測出道路上的物件。然而各種感測器皆有其優勢及劣勢，因此多感測器融合是一個有效提升偵測結果的方式。本論文旨在提出一種深度學習方法，整合光達點雲與攝影機影像特徵並且偵測出三維道路物件。本論文提出一種創新且基於融合的三維物件偵測網路，稱作「體素與像素融合網路」。位於其中的「體素與像素融合層」包含了「參數特徵生成」、「基於參數的權重調整」和「體素與像素融合」，共三個模組，能根據幾何關係雙向地融合一對體素與像素的特徵。此外，我們提出的「體素與像素參數」能考慮每一對體素與像素的特性，並加強融合效果。本研究使用知名的KITTI資料集訓練模型，並於官方未公開標註的測試集評估。實驗結果顯示本方法在多類別與多難度的三維物件偵測平均精確度達到65.99%。值得注意的是，我們的方法在KITTI排行榜中具有挑戰性的行人類別位居第一名。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/82189
DOI:	10.6342/NTU202101725
全文授權:	未授權
電子全文公開日期:	2026-08-01
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
U0001-2507202117231500.pdf 未授權公開取用	4.02 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。