Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 機械工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99502
標題: 無聲話語介面裝置之人工智慧模型的開發
Development of an AI Recognition Model for Silent Speech Interfaces
作者: 林聖凱
Sheng-Kai Lin
指導教授: 楊燿州
Yao-Joe Yang
關鍵字: 無聲話語介面,人工智慧無聲話語辨識模型,導電高分子應變感測器,面部肌電圖,Transformer,連接主義時序分類(CTC),
Silent speech interfaces,AI silent speech recognition model,Conductive-polymer-based strain sensor,Facial electromyography,Transformer,Connectionist Temporal Classification,
出版年 : 2025
學位: 碩士
摘要: 無聲語音介面(SSI)能在無法獲取語音訊號的情況下辨識口語發音,並可作為語音障礙患者的溝通翻譯工具。本研究針對語言障礙患者的溝通需求,開發了一套人工智慧無聲話語介面系統。該系統結合可穿戴式感測裝置與人工智慧無聲話語辨識模型,能夠擷取人體面部的肌肉電訊號(EMG),並透過導電高分子應變感測器量測穿戴式支架上的彎曲應變。在系統訊號轉換上,所獲取的肌電和應變訊號首先會先進行前處理,隨後利用卷積神經網路(CNN)進行特徵萃取,捕捉原始訊號中的時域與頻域特徵。接著,這些特徵被輸入至Transformer神經網路,用以建立訊號序列與語意之間的對應關係,將非聲學的訊號轉換為對應的詞彙特徵。最後,系統整合連接主義時序分類(CTC)演算法及n-gram語言模型,進行更精確的詞彙特徵解碼與語句預測,實現中英文語音的文字輸出。系統於中英文多組常用詞彙上進行驗證,分別於英文796筆與中文592筆詞彙下達到8.6%與13.11%的文字錯誤率(WER),多組常用詞彙辨識準確率亦均超過95%。整體而言,本研究所提出的AI無聲話語介面系統展現出優異的跨語言辨識效能,不僅為語言障礙者或特殊環境下的無聲話語溝通提供創新解決方案,更具備推廣至智慧醫療及人機互動等領域的高度應用潛力。
Silent speech interfaces (SSIs) enable recognition of verbal expressions from non-acoustic biosignals generated by facial movements, offering a promising solution for people with voice disorders or difficulties in verbal communication. In this work, we present a wearable silent speech interface (SSI) system integrating electromyogram (EMG) sensing electrodes with a conductive polymer-based strain sensor. An AI speech recognition model processes these signals to enable assisted speaking without relying on vocal fold activation. After preprocessing the acquired EMG and strain signals for obtaining high-quality input for recognition, features are extracted using a convolutional neural network (CNN), and a transformer architecture is utilized to aggregate contextual features into meaningful word features. The feature outputs are passed through a connectionist temporal classification (CTC) decoder, which aligns the predicted sequences with target sentence labels and, combined with an n-gram language model, accurately generates the final word sequences for both Chinese and English words. The AI speech recognition model achieved excellent word error rates (WER) of 8.6% and 13.11% on datasets containing 796 English and 592 Chinese words, demonstrating high recognition accuracy (>95%) across various datasets of commonly used vocabulary. This proposed wearable silent speech interface (SSI) potentially helps people with vocal cord injuries regain their ability to speak and enables effective communication in special situations and environments.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99502
DOI: 10.6342/NTU202502206
全文授權: 未授權
電子全文公開日期: N/A
顯示於系所單位:機械工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
  未授權公開取用
6.46 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved