以HVS為基礎之2D-to-3D即時視訊轉換演算法及架構設計

Jhe-Yi Lin; 林哲毅

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/45662

標題:	以HVS為基礎之2D-to-3D即時視訊轉換演算法及架構設計 2D-to-3D Real Time Video Conversion Algorithm and Architecture on the Basis of HVS
作者:	Jhe-Yi Lin 林哲毅
指導教授:	曹恆偉(Hen-Wai Tsao)
共同指導教授:	范育成(Yu-Cheng Fan)
關鍵字:	立體顯示技術,二維轉立體,人類視覺系統,深度重建,視訊轉換, 3D Display technology,2D-to-3D conversion,human visual system,depth reconstruction,video transformation,
出版年 :	2009
學位:	碩士
摘要:	本論文提出一個以人類視覺系統為基礎的2D-to-3D即時視訊轉換演算法。其主要的貢獻和創新在於：除了深度感知線索之外，融入更多人類視覺系統的特性，例如，由視力和視角所構成的人眼多解析空間，以及用來代表視覺冗餘的最小可分辨亮度差異變化 (Just-Noticeable-Difference, JND)。融入這些人類視覺系統的特性，除了可以提高主觀上的處理品質之外，也繼承了人類視覺系統高自適性、高一般性等優點。這些優點也正是大部分多媒體系統的努力目標。我們提出的演算法之處理流程是從“以人類視覺系統為基礎之空間分析前處理”開始，對影像的特徵、區域性質、邊緣位置、和方向等作擷取和定位，以利後續處理使用。這個部分主要是由離散小波轉換 (DWT) 和四元樹(Quadtree)分割組成的。小波轉換固定的尺度結合四元樹動態的尺度分析，提供了更完全的影像空間分析。且四元樹分割本質上的特性是對於雜訊和光影的容忍度很高，很適合用來對一般影像作分割處理。四元樹分割的核心是停止分割標準，我們將他和JND結合，並利用人類視覺冗餘的特性，容忍亮度值顫動造成的分析錯誤。我們提出的前處理不只用來擷取影像特徵，也被用來減少後續處理的時間、記憶體使用量、以及提高處理品質和正確性等優點。我們的轉換系統主要有兩個目標，第一是使用線性透視呈現擁有真實比例和位置的場景深度；第二，基於“人類對於移動物件有較高的敏感度”的事實，我們將執行移動物件切割，並依照其在影像中的相對位置、和其他物件的相對大小和關係，賦予個別物體相對的深度。為了達到以上兩個目的，線性透視中的消失線和消失點偵測、以及移動物件切割將接著前處理執行。處理完的結果再給最後一級的“深度圖重建”重建出和輸入影像對應的深度圖。在消失線偵測的部分，我們使用霍夫轉換，並利用小波轉換的金字塔次取樣和Level-of-Detail的特性，減少記憶體使用，並提高消失線和消失點偵測的正確性。在經過功能層級的模擬可知，當我們以hall_monitor_cif.yuv做測試時，我們提出的消失點偵測演算法正確率高達98%，而執行時間和直接對原始影像執行消失線偵測的相比，減少了大概90%。移動物件切割方面，我們使用Wronskian改變偵測子來完成改變偵測。為了解決“Wronskian改變偵測子對於光影變化的高容忍度”和“物件的完整性”無法兼得的問題，我們同樣以多解析度來解決。由DWT的構成的影像金字塔擷取低解析度的物件區域遮罩，再透過四元樹的金字塔結構，將區域遮罩內的區塊依照其在四元樹的層級，給定不同大小的門檻值。實驗結果證實，我們的方法不只可以保持物件的完整性，更可以避免場景光影和物件陰影的變化所造成之錯誤分割。在硬體實作方面，我們遵照標準的cell-based設計流程，並達到在CIF (352x288 pixels)格式下，每秒處理三十張影像的需求。最後，我們的晶片已TSMC 0.13um製程製作成晶片，邏輯閘數目約為4.2M個邏輯閘，操作頻率為54MHz，核心面積為1.572mm x 1.572mm。 In this thesis, we propose a 2D-to-3D video conversion algorithm and architecture based on HVS. We aim at incorporation of the characteristics of HVS and depth perception of HVS, such as the multi-resolution resulted from different viewing angle and visual distance, and Just-Noticeable Difference (JND). Our proposed system has two main goals：Using linear perspective concept to reproduce background depth map, and create foreground depth map based on the fact that human is more sensitive to moving objects. In order to reach our main goals, we utilize vanishing lines detection and vanishing point detection to extract the linear perspective in the image processed. Moving objects segmentation is done by using Wronskian change detection. Furthermore, we propose a HVS-based preprocessing due to both methods just mentioned are high level processes. The HVS-based preprocessing is composed of two main processes：discrete wavelet transform (DWT) and quadtree segmentation. DWT is used to produce multi-resolution pyramid images, which is used to provide different features we need in the further processes. Quadtree segmentation known as the most simple but powerful process is used as region segmentation. The segmentation result produces a cluster of homogeneous regions. The further processes execute adaptive processing base on the segmentation level. In order to reach the requirement of real-time process, our proposed algorithm is implemented based on the cell-based design flow. Our design is synthesized with the constraint of 54 MHz and the total gate count is about 4.2M gates. The chip is implemented with TSMC 0.13 um technology. The layout result present the core size is 1.572mm x 1.572mm.
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/45662
全文授權:	有償授權
顯示於系所單位：	電子工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-98-1.pdf 目前未授權公開取用	14.08 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。