Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72725
標題: 基於時頻跨域共同嵌入及聚類之語音分離
Speech Separation with Time-and-Frequency Cross-Domain
Joint Embedding and Clustering
作者: Gene-Ping Yang
楊靖平
指導教授: 李琳山
關鍵字: 語音分離,雞尾酒問題,深度聚類,
Speech separation,Cocktail party problem,Deep clustering,
出版年 : 2019
學位: 碩士
摘要: 本論文之主軸在探討語者無關的語音分離(Speaker Independent Speech Separation)技術,亦即在沒有語者資訊的情況下要把兩個以上的語者混雜語音分離出來。這在許多語音處理系統中都很有用,包含語音辨識、語者識別等等。當音訊中出現兩個語者以上的語音時,我們的目標就是將這些具備相近特性的語音分離出來。目前以深層學習方法處理這個問題主要分為兩大主流:頻域方法以及時域方法。兩者最大的不同在於模型的輸入,一個輸入的是原始時域訊號,另一個的輸入為經短時傅立葉轉換後所得的時頻譜。這兩種方法也分別使用了不同的模型架構,以處理這兩種不同的輸入,然而這些方法都各有缺點。
本論文提出基於時頻跨域共同嵌入及聚類之分離技術,可以讓兩種不同領域的輸入訊號(時域和頻域)能夠互相參考。我們主要是基於類神經網路中的卷積式類神經網路建模,而本輪文所提出的方法是截至目前為止語者無關的語音分離技術中表現最好的演算法之一。我們將在本文主要分析不同類神經模組對於此問題的影響,並透過實驗數據分析不同模組在解決語者無關語音分離問題時的優缺點。
The main topic of this thesis is to explore Speaker Independent Speech Separation technique, that is, to separate two or more speaker in a mixed speech without the speaker information. This is useful in many speech processing systems, including speech recognition, speaker recognition, etc. When there are two or more speakers in the audio, our goal is to separate these voices with similar characteristics. At present, deep learning method is mainly divided into two major mainstreams: the frequency domain method and the time domain method. The biggest difference between the two is the input of the model, one input is the original time domain waveform, and the other input is the frequency domain spectrum obtained by short-time Fourier transform. These two methods also use different model architectures to handle these two different inputs, but each has its own drawbacks.
This paper proposes a separation technique based on time-and-frequency cross-domain joint embedding and clustering, which allows two different fields of input signals (time domain and frequency domain) to be referenced to each other. We are mainly based on convolution-like neural network modeling, and the method proposed in this round is one of the best performing algorithms in speech-independent speech separation technology. In this paper, we will mainly analyze the influence of different types of neural modules on this problem, and analyze the advantages and disadvantages of different modules in solving the speaker-independent speech separation problem through experimental data.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72725
DOI: 10.6342/NTU201901849
全文授權: 有償授權
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
ntu-108-1.pdf
  未授權公開取用
8.29 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved