Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71386
標題: 以多元特徵方法優化邊際設備上的影片描述
Edge-friendly Video Description by Leveraging Multi-modal Features
作者: Pei-Ya Chiu
邱培雅
指導教授: 許永真(Yung-jen Hsu)
關鍵字: 多元特徵,邊緣運算,影片描述,
Multi-modal,Edge Computing,Video Description,
出版年 : 2019
學位: 碩士
摘要: 機器生成影片描述能增進機器人與人類溝通的能力。而邊緣運算能提供更快的回應速度和保護隱私的節點運算。若能在邊緣設備上運行「機器生成影片描述」,將可以使智能機器人與人類進行即時互動,同時減少上傳原始資料到雲端伺服器所造成的隱私問題。然而,類神經網路所需的大量計算資源,會導致影片描述很難運行在邊際設備上。而先前的文獻也缺乏相關研究。本論文旨在解決影片描述在邊緣設備上的運算量問題。
為了找到現行的運算瓶頸,我們分析了影片描述模型的架構以及所需運算量。從分析結果來看,影片描述模型的運算瓶頸是卷積網路特徵提取。為了解決這個問題,我們提出了一種名為「 多模態槓桿」的方法。此方法使用較小的卷積網路特徵提取器,並透過其他低計算量特徵資料(如音頻特徵或其他描述資料)來補償預期的準確度損失。
我們的結果顯示,多模態槓桿可以在降低計算負荷 92% 的同時,只讓 METEOR 分數下降 4%。而在邊緣設備所需的運算時間也減少了30%。
Video description is important for its ability to enable smart robots’ interaction with humans. At the same time, edge computing provides fast round-trip and privacy-preserving computing. Combining video description and edge computing decrease the response time of smart robots and reduces the privacy-concern of transmitting raw data to cloud servers. However, the heavy computational load makes running video description on edge difficult. Also, there is a lack of studies of such application in the literature. In this thesis, we investigate the computational problem of video description on edge devices.
To find the computational bottleneck, we first analyze a CNN- based video description method. The bottleneck turns out to be the CNN feature extraction. To solve the problem, we utilize an approach called “multi-modal leveraging” which uses small CNN feature extractors and compensates for the expected accuracy loss by other low-cost features such as audio features or metadata.
Our experiments showed that the proposed method reduced 30% of the inference time and 92% of the computation load with a 4% accuracy drop on METEOR scores.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71386
DOI: 10.6342/NTU201900506
全文授權: 有償授權
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-108-1.pdf
  未授權公開取用
692.05 kBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved