Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 機械工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98761
標題: 基於時空圖卷積網路與深度影像之台灣手語辨識與機械手臂手勢控制介面
Taiwan Sign Language Recognition and Human-Robot Collaborative Gesture Control for Robotic Arms Based on Spatial-Temporal Graph Convolutional Networks and Stereo Vision
作者: 曾奇鈞
Chi-Chun Tseng
指導教授: 黃育熙
Yu-Hsi Huang
關鍵字: 深度學習,時空圖形卷積神經網路,手語辨識,機器人操作系統,機械手臂,聾啞溝通輔助,人體姿態估計,
Deep Learning,ST-GCN,Sign Language Recognition,ROS2,Robotic Arm,Assistive Technology,Human Pose Estimation,
出版年 : 2025
學位: 碩士
摘要: 本研究旨在發展一套以深度學習為基礎的手語辨識系統,並將其應用於機械手臂的人機互動控制。研究動機主要來自於兩個方向。其一是協助聾啞人士在日常生活中的溝通,使其在公共服務、醫療照護等情境中能更自如地表達需求與想法。其二則是針對環境噪音干擾較嚴重的場域(如工廠),提供一種以手勢作為機械手臂輸入指令的替代方案,不僅具備抗噪音的優勢,亦便於遠距操控,進而提升操作效率、減少人員暴露於危險區域的風險,具備高度實務價值。
本研究先透過MediaPipe 模型獲取人體骨架座標,並針對這些骨架座標進行資料增強處理,包括正規化、標準化等操作,以提升模型對手勢變化的辨識能力。接著,將處理後的資料輸入至基於空間距離分群策略的時空圖卷積網路,進行訓練,以獲得可以辨識台灣手語的系統。在應用上,我們把這個手語辨識系統當作指派機械手臂任務的翻譯器,讓使用者可以使用手語來命令機械手臂工作。基本上,這些由手語轉換的控制指令是透過機器人操作系統傳遞給機械手臂來完成自主取物的任務。為協助機械手臂進行精準的實體互動,本系統亦搭配輪廓辨識方法來執行物件的偵測與定位,以強化整體應用的實用性與靈活性。
本系統設計以模組化與即時性為考量,具備約 95% 的手語動作辨識準確率與穩定的操作反應,適用於輔助溝通介面、特殊教育訓練場域,或其他需要非語音控制的智慧環境。此外,系統使用人體骨架座標作為主要特徵輸入,相較於傳統以影像為基礎的卷積神經網路方法,不僅能顯著降低所需訓練資料量,亦在資源受限的條件下維持良好的辨識準確度,避免因影像背景、光線等外部因素造成辨識干擾,展現高效且具彈性的實作潛力。研究亦探討資料處理與模型設計對辨識效能的影響,為後續應用提供技術依據。
This study presents a deep learning-based sign language recognition system integrated with robotic arm control for human-robot interaction. The system is designed to support communication for individuals with hearing and speech impairments and to provide a gesture-based interface for robot control in noisy environments such as factories. Utilizing MediaPipe for human skeletal keypoint extraction, the system applies data augmentation techniques (normalization, standardization) followed by classification using a Spatial Temporal Graph Convolutional Network with the Spatial-Distance partitioning strategy (STGCN-SD). Recognized gestures are translated into control commands and executed by the robotic arm via the ROS2 framework. For object interaction, the system incorporates contour-based object detection and localization, enabling task-specific responses based on the recognized signs.
Achieving approximately 95% recognition accuracy, the system demonstrates real-time responsiveness and modular design, making it suitable for assistive communication, special education, and smart environments. Unlike traditional CNN-based methods, the use of skeletal data significantly reduces training data requirements and is less affected by background or lighting variations, enhancing efficiency and robustness. The research also explores the influence of data processing and model architecture on recognition performance, providing a foundation for future expansion in multi-modal input, sentence-level recognition, and cross-lingual sign language systems.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98761
DOI: 10.6342/NTU202503890
全文授權: 同意授權(全球公開)
電子全文公開日期: 2030-08-05
顯示於系所單位:機械工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
  此日期後於網路公開 2030-08-05
7.03 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved