請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/70880
標題: | 使用影像分割與單應性矩陣對齊之影片籃球場定位 Basketball Court Localization for Videos by Image Segmentation and Homography Alignment |
作者: | Yu-Ching Wang 王于青 |
指導教授: | 莊永裕(Yung-Yu Chuang) |
關鍵字: | 球場定位,相機校正,球場分割,球場對齊,籃球, court localization,camera calibration,court segmentation,court alignment,basketball, |
出版年 : | 2018 |
學位: | 碩士 |
摘要: | 本篇論文提出了從籃球影片的單一影像中,提取出有效的場地語意資訊,並進一步將任意相機視角的球場,自動定位到俯視球場模型的單應矩陣估計方法。
先前使用語意資訊分析的方法,會需要事先假定球場與球場線的顏色,或是需要使用者手動標記出參考影像的球場定位資訊,來進行進一步語意分析。而使用相機校正的方法,則需要限制相機的位置與移動方式,並會受到影像追蹤器表現的影響。相較於這些方法,我們首先開發了可以讓使用者快速標記影像定位參數的工具,來產生大量的場地語意資訊。我們使用生成的訓練資料,透過現有的深度影像分割網路,訓練出穩定的籃球場地語意提取模型。 此外,目前在球場定位表現最好的方法,使用了馬可夫隨機場來解決球場定位問題,將場地語意資訊轉換成線段能量,與球場水平和垂直方向上兩消失點的射線,計算之間的最小能量,以得到最終的單應矩陣估計值。 對此,我們則提出了兩階段的方法,在階段一結合了傳統方法與深度球場分割模型來得到初始球場對應點的估計值,並在階段二將球場定位問題轉換成影像對齊問題,利用現有的線性優化器,與階段一得到較好的初始值,估計出最終球場定位結果。 在考慮整段影片的時間關聯性後,我們成功產生出在時間上有較好連貫性的球場定位結果,並改進了缺少場地語意資訊與單應矩陣對應點影像的定位成果。 This thesis introduces a homography estimation technique that efficiently extracts semantic features and automatically localizes basketball court from a single image of broadcast videos. Unlike previous methods that require color presumptions or manual keyframe annotations of the field surface and court lines to extract possible court features, or add position and motion constraints on cameras to achieve reliable camera calibration, we develop a fast homography annotation tool to generate large amounts of court annotations, and train deep segmentation models that can efficiently extract semantic court features from general NBA basketball courts. Also, compared to the state-of-the-art method that formulates the court localization problem as a branch and bound inference in a Markov random field where an energy function is defined in terms of semantic cues, we propose a two-stage method that uses deep semantic features to estimate initial homography points, and we formulate the court localization problem as an image alignment problem, which can be solved by existing linear optimizers with our good initial transformation matrices. By taking temporal correlations into consideration, we successfully localize video sequences with satisfactory temporal coherence, and we even achieve acceptable performance for images that are lack of semantic homography correspondences. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/70880 |
DOI: | 10.6342/NTU201802502 |
全文授權: | 有償授權 |
顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-107-1.pdf 目前未授權公開取用 | 75.3 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。