Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98711
標題: Etude:基於萃取、結構化與解碼的自動鋼琴翻奏生成模型架構
Etude: Automatic Piano Cover Generation with a Three-Stage Approach — Extract, strucTUralize, and DEcode
作者: 陳澤暘
Tse-Yang Chen
指導教授: 莊裕澤
Yuh-Jzer Joung
關鍵字: 自動鋼琴翻奏生成,音樂生成,音樂資訊檢索,自動音樂轉錄,可控生成,
Automatic Piano Cover Generation,Music Generation,Music Information Retrieval (MIR),Automatic Music Transcription,Controllable Generation,
出版年 : 2025
學位: 碩士
摘要: 鋼琴翻奏生成(Piano Cover Generation)旨在將一首流行歌曲自動轉換為鋼琴編曲。過去已有眾多深度學習研究探討此任務,其解決方案涵蓋了從模型架構的修改到資料預處理的優化等多個層面。然而,我們觀察到這些模型時常無法確保其輸出與原曲之間的結構一致性。我們推論,其原因在於模型的架構缺乏節拍感知的能力,或是模型無法正確學習複雜的節奏資訊。這些節奏資訊至關重要,因為它不僅主導了鋼琴翻奏與原曲在結構層面上的相似性(如速度、BPM),也直接影響了生成音樂的整體品質。

在本論文中,我們提出了一套名為 Etude 的三階段式架構,其名稱融合了其三大核心模組的英文縮寫:萃取(Extract)、結構化(strucTUralize)與解碼(DEcode)。透過預先提取節奏資訊,並採用一種新穎且高度簡化的、基於 REMI 的 token 表示法,我們的模型確保了生成的翻奏具備正確的歌曲結構,提升了音樂的流暢度與動態表現,並能透過注入指定風格來實現高度可控的生成。最終,在包含人類聽眾的主觀評測中,Etude 的表現大幅超越了所有過去的代表性模型,其生成品質更加接近人類作曲家的水平。
Piano cover generation aims to automatically convert a pop song into a piano arrangement. Numerous deep learning studies have previously addressed this task, with solutions ranging from architectural modifications to optimizations in data preprocessing. However, we observe that these models often fail to ensure structural consistency between their output and the original song. We hypothesize this is due to a lack of beat-aware capabilities in their architectures or an inability of the models to correctly learn complex rhythmic information. This rhythmic information is critical, as it not only governs the structural similarity (e.g., tempo, BPM) but also directly impacts the overall quality of the generated piano music.

In this paper, we propose a three-stage architecture, Etude, composed of Extract, strucTUralize, and DEcode stages. By pre-extracting rhythmic information and utilizing a novel, highly simplified REMI-based tokenization, our model ensures the generated covers possess a proper song structure, improves fluency and musical dynamics, and enables highly controllable generation through the injection of specified styles. Finally, in subjective evaluations with human listeners, Etude substantially outperforms all previous models, achieving a quality closer to that of human composers.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98711
DOI: 10.6342/NTU202503741
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2025-08-19
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
1.56 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved