Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 工程科學及海洋工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/92655
標題: 基於視覺的輕量級注意力網路於視線估計
Vision-Based Lightweight Attention Networks for Gaze Estimation
作者: 陳翊瑄
I-HSUAN CHEN
指導教授: 丁肇隆
Chao-Lung Ting
關鍵字: 深度學習,電腦視覺,視線偵測,影像處理,
deep learning,computer vision,gaze estimation,image processing,
出版年 : 2024
學位: 碩士
摘要: 隨著人工智慧的進步,人機互動技術取得了顯著的進展,視線估計技術已不再受限於以昂貴精密儀器測量之方式,而是透過深度學習方法的應用。這項進步不僅為娛樂領域帶來了新的發展方向,亦對漸凍人等疾病需求,帶來了新的研究方向。然而,將模型部署於移動設備上時,模型之參數量成為了一個重要的考量因素。本研究提出一個基於輕量化Transformer之視線估計模型,於MPIIFaceGaze子集上,以較少之參數量與較低之浮點數運算量,在測試集性能上獲取比先前研究更低之3.98°平均角度誤差。此外,本研究也設計一個簡單的系統,在實驗設備上測試模型性能。於實驗中,本研究以視線區塊為一個實驗單位,並將預估之視線向量,經由影像後處理轉換為螢幕之視線落點。在解析度為1280×720螢幕上,8格視線區塊實驗所預估之視線落點,可以達到100%之準確率,而12格視線區塊實驗視線落點之準確度則約為80%。
With the advancement of artificial intelligence, significant progress has been made in human-computer interaction technology, and gaze estimation techniques are no longer limited to costly and precise instrument measurements but rather are now applied through deep learning methods. This advancement not only brings new directions in the entertainment domain but also opens up new research avenues for conditions such as ALS. However, when deploying models on mobile devices, the parameter count of the model becomes a crucial consideration. This study proposes a gaze estimation model based on lightweight Transformer architecture, which achieves a lower average angular error of 3.98° on the MPIIFaceGaze subset with fewer parameters and lower floating-point operations compared to previous research. Additionally, a simple system is designed to test the model''s performance on experimental devices. In the experiments, gaze blocks are used as experimental units, and the estimated gaze vectors are processed into screen gaze points through post-image processing. On a screen with a resolution of 1280×720 pixels, the estimated gaze points in the 8-grid gaze blocks achieve 100% accuracy, while the accuracy for the 12-grid gaze blocks experiment is approximately 80%.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/92655
DOI: 10.6342/NTU202401003
全文授權: 未授權
顯示於系所單位:工程科學及海洋工程學系

文件中的檔案:
檔案 大小格式 
ntu-112-2.pdf
  目前未授權公開取用
4.63 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved