Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/89920
標題: 時序模組輔助基於注意力機制特徵提取器用於超音波影像分割
Attention-based Feature Extractor with Temporal Module for Ultrasound Image Sequence Segmentation
作者: 王檡翔
Ze-Siang Wang
指導教授: 李明穗
Ming-Sui Lee
關鍵字: 超音波影像分割,Transformer,卷積神經網路,循環神經網絡,注射喉成形術,
Ultrasound Image Segmentation,Transformer,Convolution Neural Network,Recurrent Neural Network,Injection Laryngoplasty,
出版年 : 2023
學位: 碩士
摘要: 與他人溝通是我們日常生活中的一項基本能力。 然而,患有聲帶萎縮的人在與他人溝通方面存在困難。值得慶幸的是,一種稱為注射增強的治療方法被創造來解決這種情況並在多年來被證明是有效的,且廣泛應用於許多聲帶疾病。在大多數情況下,醫生會將玻尿酸(Hyaluronic Acid)注射到患者的聲帶中,以改善聲門間隙並幫助聲帶正常閉合。過去,醫生必須從病人的發聲去判斷聲帶恢復情況以及是否需要補充玻尿酸。近來,使用超音波影像來分析玻尿酸在人體內殘留情況和作用位置是可行的。隨著電腦視覺領域的發展,可以使用電腦去幫助醫生追蹤玻尿酸在人體中降解作用以及估算出玻尿酸殘留體積。儘管基於CNN的模型在圖像分割任務中取得了優異的性能,但由於卷積運算的局部性,使得它們仍然無法學習全局和遠程信息。 此外,當前大多數分割模型只關注分割任務中的空間特徵,忽略時間特徵。然而,時間特徵對於醫生推斷玻尿酸體積也很重要。 因此,我們認為時間信息對於模型正確預測玻尿酸也是很重要的。在本研究中,我們提出了 AFTNet(注意力特徵時間網絡),其中包含基於注意力機制的特徵提取器和時間模組。借助基於注意力的特徵提取器和時間模組,我們的模型不僅可以更有效的學習全局和遠程信息,還可以更好地學習目標影片的時間特徵。我們將此模型應用於我們提出的患者喉嚨數據集,不僅能協助醫生解決難以判斷的鈣化以及雜訊案例,其性能優於基於 CNN 的模型和基於 Transformer 的模型。
Communicating with other people is a basic ability in our daily life. However, those who suffering from vocal cord atrophy have trouble communicating with others. Thankfully, a treatment method called injection laryngoplasty is created to solve this situation, which being proved effective over the years and widely applied to many vocal cord disorders. In most cases, doctors inject hyaluronic acid (HA) into patients' vocal cord to improve the glottal gaps and help vocal cord close properly. Previously, doctors have to judge the patients' voice to check the recovery and determine whether to complement HA. Recently, to observe how HA remains and works at, it is feasible to analyze on ultrasound image sequences. With the development of computer vision, doctors can employ computer-assisting method to track degradation of HA and estimate HA volume in human body. Although CNN-based models have achieved excellent performance in image segmentation tasks, they still can not learn global and long-range information due to locality of convolution operation. Besides, most current segmentation models only focus on spatial features, ignoring temporal features in segmentation task. However, temporal features are also important for doctors to inference HA position. Therefore, we believe temporal information is also critical for the models to predict HA position correctly. In this study, we proposed AFTNet(Attention Feature Temporal Network), which contains attention-based feature extractor and temporal module. With the benefit of attention-based feature extractor and temporal module, our model can not only better learn global and long-range dependencies, but temporal features of the target videos. We apply this model to our proposed Patient Throat Dataset, which not only assists doctors in difficult-to-diagnose calcified and noise cases, but outperforms both CNN-based and Transformer-based models.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/89920
DOI: 10.6342/NTU202302561
全文授權: 同意授權(全球公開)
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-111-2.pdf5.5 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved