改善基於神經網路與地標法的音訊指紋

Yi-Feng Chen; 陳羿豐

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79450

標題:	改善基於神經網路與地標法的音訊指紋 Improvement of Neural Network- and Landmark-based Audio Fingerprinting
作者:	Yi-Feng Chen 陳羿豐
指導教授:	張智星(Jyh-Shing Roger Jang)
關鍵字:	音樂檢索,音訊指紋,地標法,對比學習,二階段洗牌,資料擴增,支援向量機, music retrieval,audio fingerprinting,landmark method,contrastive learning,two-phase shuffling,data augmentation,SVM,
出版年 :	2021
學位:	碩士
摘要:	"音訊指紋是一種音樂檢索方式，可用來快速的從錄音中辨識出相符的音樂，其作法是從錄音檔抽取顯著的特徵，並將此特徵和資料庫中的音樂特徵做比對。由於錄音經常會受到雜訊干擾，因此音訊指紋需要有抵抗環境噪音的能力。過去音訊指紋的做法主要是傳統演算法，如Avery Wang提出的地標法，近年來基於深度學習的音訊指紋做法已逐漸成為主流，如Google提出的Now Playing。此篇研究主要聚焦在Sungkyun Chang等人提出的神經網路法音訊指紋。本論文首先以MIREX音訊指紋資料集來評估神經網路法和地標法，顯示出神經網路法在以現實世界的錄音來測試時，精準度仍然不如傳統演算法。因此本論文提出了三種方法來改進神經網路法：二階段洗牌、資料擴增改良以及對查詢做多次時間位移，並在最後以支援向量機(Support Vector Machine, SVM)來整合地標法和神經網路法的結果。為了方便重現，實驗使用公開的Free Music Archive資料集，透過加入雜訊的方式生成查詢音檔，並依照雜訊的強度分別計算檢索精準度。實驗結果顯示本論文提出的改進方式能夠顯著的提升神經網路在強雜訊下的精準度，並使得神經網路法在現實世界錄音查詢的表現超越地標法。"
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79450
DOI:	10.6342/NTU202103716
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
U0001-1410202111220200.pdf	4.2 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。