Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/88589
標題: 視覺音訊和相似網路用於影片重複動作計數
Vision Audio and Similarity Networks for Video Repetition Counting
作者: 張智堯
Chih-Yao Chang
指導教授: 吳沛遠
Pei-Yuan Wu
關鍵字: 重複性動作計數,視覺,聲音,相似矩陣,
Repetition counting,Vision,Audio,Similarity Matrix,
出版年 : 2023
學位: 碩士
摘要: 我們提出 VASsNet 作為視頻中重複動作計數的一種新穎方法,它結合了視覺、音頻及其相似度矩陣。在之前的工作中,視覺、視覺相似度和音頻特徵已分別用於重複運動計數。然而,由於缺乏對這三個方面信息的有效整合,在模糊和/或包含快速運動的視頻中很難獲得良好的計數結果。VASsNet 由四個路徑構成,即視覺、視覺相似性、音頻和音頻相似性路徑。通過採用多層跨模態信息融合方法,通過橫向連接有效地集成從這些路徑中提取的信息。通過實驗,我們演示瞭如何利用相似矩陣路徑來解決視頻中短期運動引起的先前無法檢測到的重複動作計數的問題;以及音頻路徑如何幫助提高模糊視頻的計數準確性。實驗結果表明,VASsNet 在 Countix 和Countix-AV 數據集上實現了最先進的性能。
We propose VASsNet as a novel approach for repetitive action counting in video, which incorporates Vision, Audio, as well as their Similarity matrices. In previous works, vision, vision similarity, and audio features have been separately used for repetitive motion counting. However, due to the lack of effective integration of information from these three aspects, it is difficult to achieve decent counting results in videos which are blurry and/or contain rapid movements. The VASsNet is structured with four pathways, namely the vision, vision similarity, audio and audio similarity pathways. The information extracted from these pathways is effectively integrated through lateral connections by employing a multi-layers cross-modal information fusion approach. Through experiments, we demonstrate how the similarity matrix pathways can be utilized to solve the problem of the previously undetectable repetitive action counting which is caused by short-term motion in videos; and how the audio pathway can help to enhance the counting accuracy with blurry videos. Experiment results show that VASsNet achieves the state-of-the-art performance on Countix and Countix-AV datasets.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/88589
DOI: 10.6342/NTU202302401
全文授權: 未授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-111-2.pdf
  未授權公開取用
2.53 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved