採用知識蒸餾與模型壓縮之低功耗可變關鍵字的喚醒詞辨識系統

I Chien; 簡義

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80129

標題:	採用知識蒸餾與模型壓縮之低功耗可變關鍵字的喚醒詞辨識系統 Small-footprint Open-vocabulary Keyword Spotting Using Knowledge Distillation and Model Quantization
作者:	I Chien 簡義
指導教授:	張智星(Jyh-Shing Jang)
關鍵字:	喚醒詞辨識,連結時序分類,知識蒸餾,模型量化,Mobvoi Hotwords, keyword spotting,connectionist temporal classification,knowledge distillation,model quantization,Mobvoi Hotwords,
出版年 :	2021
學位:	碩士
摘要:	隨著智慧裝置的普及，語音喚醒技術日益重要。語音喚醒主要透過喚醒詞辨識實現，目標為在一連續語音中辨識是否存在一特定關鍵字。由於深度神經網路快速的發展，採用深度神經網路的喚醒詞辨識也在辨識精準度上獲得了大幅的進步。傳統基於深度神經網路的喚醒詞辨識系統需要使用大量目標關鍵字的語音作為訓練資料，因此只能辨識固定的關鍵字且難以在完成訓練後替換關鍵字。若是需要替換關鍵字，就需要重新蒐集目標關鍵字的語料並重新訓練模型。本論文聚焦於實作一可變關鍵字的喚醒詞辨識系統，其採用連結時序分類（connectionist temporal classification，CTC）來訓練聲學模型，透過模型的輸出計算信心分數並基於信心分數來決定是否喚醒系統。然而為了方便使用，喚醒詞辨識系統需要部屬於邊緣裝置上，為了達成此目標，本論文也採用了知識蒸餾（knowledge distillation）和模型量化（model quantization）方法，在不影響辨識精準度的前題下大幅提升系統的辨識速度。於Mobvoi Hotwords上進行實驗，相較於基準方法，本研究提出的方法可以在運行速度相對提升40%時，同時使每小時錯誤喚醒次數為1時的錯誤拒絕率相對下降15.54%。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80129
DOI:	10.6342/NTU202101258
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊網路與多媒體研究所

文件中的檔案：

檔案	大小	格式
U0001-0407202113423600.pdf	2.88 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。