Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50413
標題: 使用卷積類神經網路及長短期記憶單元方法以標籤關係為基礎的場景辨識
Label Relation Based Scene Classification Using CNNs and LSTM
作者: Po-Jen Chen
陳柏任
指導教授: 丁建均(Jian-Jiun Ding)
關鍵字: 標籤關係,場景辨識,階層式類神經網路,長短期記憶單元,
label relation,scene classification,hierarchy neural network,LSTM,
出版年 : 2016
學位: 碩士
摘要: 在傳統的場景辨識方法中,通常假設每一個標籤是互斥的,但是這常常是不合理的,因為在場景的標籤中,可能會有一些關係,例如:雪山的場景同時屬於山跟雪兩個標籤,所以這是一個多標籤的場景辨識。其中,我們整理了兩個最主要的關係,階層式關係與互斥關係。希望透過這兩個關係來讓辨識結果更加的合理。
  我們提出兩個方法,第一個方法是基於階層式的卷積類神經網路與關係圖結構,相對於傳統的假設標籤互斥的方法,我們假設圖的路徑是互斥的。但由於這個方法是需要對資料庫做預處理,同時需要人工建立關係圖。因此我們提出另外一個基於長短期記憶單元的方法,由於我們認為語言中的文法很像是標籤關係,因此我們透過長短期記憶單元的結構,來訓練出語言模型,並產生關於場景的敘述,這個敘述就是辨識的結果。從最後的模擬結果我們可以發現我們提出的兩個方法都比過往的多類別場景辨識結果要好,另外,基於長短期記憶單元的方法又比階層式卷積神經網路的方法好。
In traditional scene classification, they assume the labels are mutually exclusive. But there are some relations between the labels. For example, the snow mountain scene must belong to both mountain and snow labels. Therefore, the results of the traditional label relations are not reasonable. We want to predict a more reasonable result based on the label relations. We conclude two relations, which are hierarchy relation and exclusive relation.
We proposed two algorithms, the first algorithm is based on the hierarchy CNN and the label relation graph structure. We assume the paths in the graph are mutually exclusive instead of assuming the labels are mutually exclusive. But this algorithms need pre-processing of the dataset and we need to build the label relation graph in manual. Therefore, we proposed another algorithm which is based on the long short-term memory. The idea is the grammar between the words in the sentence is like the label relations between the labels. This is very like the image captioning work. Therefore, we train a language model to model the label relations and use the long short-term memory structure to produce the description of the image. The description of the image is our predict result.
The simulation result suggests that the algorithms we proposed are better than other multi-label scene classification methods. In addition, the algorithm based on the long short-term memory is better than the algorithm based on the hierarchy convolutional neural network.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50413
DOI: 10.6342/NTU201601474
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-105-1.pdf
  目前未授權公開取用
3.07 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved