請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79450完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 張智星(Jyh-Shing Roger Jang) | |
| dc.contributor.author | Yi-Feng Chen | en |
| dc.contributor.author | 陳羿豐 | zh_TW |
| dc.date.accessioned | 2022-11-23T09:00:48Z | - |
| dc.date.available | 2021-11-04 | |
| dc.date.available | 2022-11-23T09:00:48Z | - |
| dc.date.copyright | 2021-11-04 | |
| dc.date.issued | 2021 | |
| dc.date.submitted | 2021-10-28 | |
| dc.identifier.citation | [1] 唐子翔。「以雙向檢索及排序學習演算法來改進音訊指紋辨識」。碩士論文,國立臺灣大學資訊工程學研究所,2020。 [2] 廖信富。「藉由目標區域以及雜湊表調整對以地標為特徵音訊指紋的改進」。碩士論文,國立臺灣大學資訊工程學研究所,2018。 [3] 廖珮妤。「用於音樂檢索的聲紋辨識改良」。碩士論文,國立清華大學資訊工程學系,2013。 [4] J. L. Ba, J. R. Kiros, and G. E. Hinton. Layer normalization. arXiv preprint, 2016. arXiv:1607.06450. [5] A. Báez-Suárez, N. Shah, J. A. Nolazco-Flores, S.-H. S. Huang, O. Gnawali, and W. Shi. Samaf: Sequence-to-sequence autoencoder model for audio fingerprinting. ACM Trans. Multimedia Comput. Commun. Appl., 16(2), May 2020. [6] S. Chang, D. Lee, J. Park, H. Lim, K. Lee, K. Ko, and Y. Han. Neural audio fingerprint for high-specific audio retrieval based on contrastive learning. In International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021), 2021. [7] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020. [8] M. Defferrard, K. Benzi, P. Vandergheynst, and X. Bresson. Fma: A dataset for music analysis. arXiv preprint, 2017. arXiv:1612.01840. [9] T. DeVries and G. W. Taylor. Improved regularization of convolutional neural networks with cutout. arXiv preprint, 2017. arXiv:1708.04552. [10] W. Drevo. Dejavu: Audio fingerprinting and recognition algorithm implemented in python. https://github.com/worldveil/dejavu, 2014. [11] J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Audio set: An ontology and human-labeled dataset for audio events. In Proc. IEEE ICASSP 2017, New Orleans, LA, 2017. [12] B. Gfeller, B. Aguera-Arcas, D. Roblek, J. D. Lyon, J. J. Odell, K. Kilgour, M. Ritter, M. Sharifi, M. Velimirović, R. Guo, and S. Kumar. Now playing: Continuous low-power music recognition. In NIPS 2017 Workshop: Machine Learning on the Phone, 2017. [13] J. Haitsma and T. Kalker. A highly robust audio fingerprinting system. In ISMIR, 2002. [14] R. Jang. 16-1 landmark extraction. http://mirlab.org/jang/books/audioSignalProcessing/afpLandmarkExtraction.asp?title=16-1%20Landmark%20Extraction. [15] M. Jeub, M. Schäfer, and P. Vary. A binaural room impulse response database for the evaluation of dereverberation algorithms. In Proceedings of International Conference on Digital Signal Processing (DSP), pages 1–4, Santorini, Greece, July 2009. IEEE, IET, EURASIP, IEEE. [16] J. Johnson, M. Douze, and H. Jégou. Billion-scale similarity search with gpus. arXiv preprint arXiv:1702.08734, 2017. [17] MIREX. 2020:audio fingerprinting. https://www.music-ir.org/mirex/wiki/2020:Audio_Fingerprinting. Accessed: 2021-4-23. [18] D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le. Specaugment: A simple data augmentation method for automatic speech recognition. Interspeech 2019, Sep 2019. [19] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830, 2011. [20] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2015. [21] Shazam. https://www.shazam.com. [22] Soundhound. http://www.soundhound.com/. [23] A. Wang. An industrial strength audio search algorithm. In ISMIR 2003, 4th International Conference on Music Information Retrieval, Baltimore, Maryland, USA, October 27-30, 2003, Proceedings, 2003. [24] Xaudia. Microphone impulse response project. http://micirp.blogspot.com, 2017. | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79450 | - |
| dc.description.abstract | "音訊指紋是一種音樂檢索方式,可用來快速的從錄音中辨識出相符的音樂,其作法是從錄音檔抽取顯著的特徵,並將此特徵和資料庫中的音樂特徵做比對。由於錄音經常會受到雜訊干擾,因此音訊指紋需要有抵抗環境噪音的能力。過去音訊指紋的做法主要是傳統演算法,如Avery Wang提出的地標法,近年來基於深度學習的音訊指紋做法已逐漸成為主流,如Google提出的Now Playing。此篇研究主要聚焦在Sungkyun Chang等人提出的神經網路法音訊指紋。本論文首先以MIREX音訊指紋資料集來評估神經網路法和地標法,顯示出神經網路法在以現實世界的錄音來測試時,精準度仍然不如傳統演算法。因此本論文提出了三種方法來改進神經網路法:二階段洗牌、資料擴增改良以及對查詢做多次時間位移,並在最後以支援向量機(Support Vector Machine, SVM)來整合地標法和神經網路法的結果。為了方便重現,實驗使用公開的Free Music Archive資料集,透過加入雜訊的方式生成查詢音檔,並依照雜訊的強度分別計算檢索精準度。實驗結果顯示本論文提出的改進方式能夠顯著的提升神經網路在強雜訊下的精準度,並使得神經網路法在現實世界錄音查詢的表現超越地標法。" | zh_TW |
| dc.description.provenance | Made available in DSpace on 2022-11-23T09:00:48Z (GMT). No. of bitstreams: 1 U0001-1410202111220200.pdf: 4299319 bytes, checksum: 57a666935ed8c33c300b6c21aaed5175 (MD5) Previous issue date: 2021 | en |
| dc.description.tableofcontents | 誌謝 ii 摘要 iii Abstract iv 第一章 緒論 1 1.1 主題簡介 1 1.2 研究方向與主要貢獻 2 1.3 章節概述 2 第二章 音訊指紋相關研究 4 2.1 地標法 4 2.1.1 時頻圖上建立顯著峰 (salient peaks) 4 2.1.2 將顯著峰轉為雜湊 5 2.1.3 比對並評分 6 2.2 Now Playing法 7 2.2.1 Triplet loss 8 2.2.2 音樂偵測器 9 2.3 NAF法 9 2.3.1 對比學習 (Contrastive Learning) 9 2.3.2 資料擴增 (Data Augmentation) 10 第三章 資料集簡介 12 3.1 MIREX資料集 12 3.1.1 清理資料集 12 3.2 FMA資料集 13 3.3 AudioSet 13 3.4 Aachen Impulse Response 14 3.5 Microphone Impulse Response Project (MicIRP) 14 3.6 資料集分割 14 第四章 研究方法 16 4.1 音訊指紋系統架構 16 4.2 地標法實作 16 4.2.1 資料前處理 16 4.2.2 抽取地標 17 4.2.3 將地標儲存到雜湊表 17 4.2.4 配對地標並計分 18 4.3 神經網路法實作 19 4.3.1 資料前處理 19 4.3.2 模型架構 20 4.3.3 資料擴增 20 4.3.4 損失函數 (loss function) 22 4.3.5 訓練方法 23 4.3.6 將內嵌向量儲存到資料庫 24 4.3.7 查詢與計分方式 26 4.4 評量指標 27 4.5 改進實驗 28 4.5.1 二階段洗牌 (Two-Phase Shuffling) 28 4.5.2 資料擴增改良 29 4.5.3 對查詢做多次時間位移 30 4.6 以 SVM 整合地標法和神經網路法的結果 31 4.7 實驗環境 32 第五章 實驗結果探討 33 5.1 基礎神經網路模型與地標法之比較 33 5.2 實驗一:二階段洗牌 34 5.3 實驗二:改良資料擴增–隨機時間位移 37 5.4 實驗三:改良資料擴增–雜訊強度 39 5.5 實驗四:改良資料擴增–殘響 41 5.6 實驗五:對查詢做多次時間位移 43 5.7 實驗六:以SVM整合地標法和神經網路法的結果 47 5.7.1 線性 SVM 47 5.7.2 RBF 核 SVM 49 第六章 結論與未來展望 52 6.1 結論 52 6.2 未來展望 54 參考文獻 56 附錄A—神經網路法效能分析 59 | |
| dc.language.iso | zh-TW | |
| dc.title | 改善基於神經網路與地標法的音訊指紋 | zh_TW |
| dc.title | Improvement of Neural Network- and Landmark-based Audio Fingerprinting | en |
| dc.date.schoolyear | 109-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.advisor-orcid | 張智星(0000-0002-7319-9095) | |
| dc.contributor.oralexamcommittee | 王崇喆(Hsin-Tsai Liu),葉子雋(Chih-Yang Tseng) | |
| dc.subject.keyword | 音樂檢索,音訊指紋,地標法,對比學習,二階段洗牌,資料擴增,支援向量機, | zh_TW |
| dc.subject.keyword | music retrieval,audio fingerprinting,landmark method,contrastive learning,two-phase shuffling,data augmentation,SVM, | en |
| dc.relation.page | 59 | |
| dc.identifier.doi | 10.6342/NTU202103716 | |
| dc.rights.note | 同意授權(全球公開) | |
| dc.date.accepted | 2021-10-29 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 資訊工程學研究所 | zh_TW |
| 顯示於系所單位: | 資訊工程學系 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-1410202111220200.pdf | 4.2 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
