請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97520| 標題: | 基於 Transformer 模型鋼琴伴奏風格轉換 Transformer-Based Piano Accompaniment Style Transfer |
| 作者: | 艾芯 Hsin Ai |
| 指導教授: | 楊奕軒 Yi-Hsuan Yang |
| 關鍵字: | 音樂風格轉換,鋼琴伴奏,內容-風格解耦,導引譜,Transformer, Music Style Transfer,Piano Accompaniment,Content-Style Disentanglement,Lead Sheet,Transformer, |
| 出版年 : | 2025 |
| 學位: | 碩士 |
| 摘要: | 針對特定編曲家風格的流行鋼琴演奏版(piano cover)進行風格轉換,是符號化音樂生成領域中的一項獨特挑戰,其核心在於實現穩健的內容與風格解耦。本研究中,我們將「風格」定義為特定編曲家的伴奏模式——例如其特有的節奏密度 (rhythmic intensity)、複音織度 (polyphony) 、音域(pitch range)等伴奏型態;而將「內容」定義為核心的旋律及和聲。此任務的一項關鍵困難在於,即使是旋律本身也可能包含了編曲家的風格變化。本論文旨在解決此問題,我們確立了以導引譜 (lead sheet)——一種包含旋律與和弦進行的樂譜——作為「內容」的穩固基礎。透過提供一個明確的核心音樂結構,譜面得以有效去除鋼琴演奏中所附加的風格變化,為風格轉換提供了更清晰的分離基礎。在此之上,本研究系統性地比較了數種基於 Transformer 的架構,以探究直接基於 token (token-based) 的控制方法與更複雜的基於嵌入 (embedding-based) 策略的成效。值得注意的是,本研究框架的運作無需成對資料。我們的綜合評估顯示,儘管所有實現的方法都能有效捕捉目標編曲家的特徵,基於 token 的模型卻是一個更簡潔且有效的解決方案。它在風格轉換任務的兩大核心層面——內容保留與風格匹配——的客觀與主觀評估中,均取得了更優越的表現。這個關鍵發現提供了有力的實證證據:對於此類任務,利用導引譜來清晰地表示內容,能讓一個簡單的、基於 token 的模型實現風格轉換,為未來的研究提供了一個實際且有效的基準。 Arranger-specific style transfer for pop piano covers presents a unique challenge in achieving robust content-style disentanglement. For this work, we define arranger-specific style by unique accompaniment patterns, such as characteristic rhythmic intensity, polyphony, and pitch range. Content, conversely, is identified as the core melody and harmony. A key difficulty is that even performed melodies can contain an arranger's stylistic variations. This research addresses this by establishing the lead sheet as a robust anchor to decouple the musical content from stylistic variations, enabling a cleaner separation of style. Building on this foundation, we propose a Transformer-based framework to systematically compare the efficacy of a direct token-based conditioning approach versus more complex embedding-based strategies. Notably, this framework operates without requiring paired data. Our comprehensive evaluations demonstrate that while all implemented approaches successfully transfer the target arranger's characteristics, the simpler token-based model consistently proves to be a more effective and efficient solution. It achieved superior performance in both objective and subjective evaluations across the two core dimensions of the task: content preservation and style matching. This key finding highlights a crucial insight: leveraging a lead sheet for clear content representation allows a simple token-based model to achieve highly effective style transfer, providing a practical and efficient benchmark for future work. |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97520 |
| DOI: | 10.6342/NTU202501267 |
| 全文授權: | 同意授權(全球公開) |
| 電子全文公開日期: | 2025-07-03 |
| 顯示於系所單位: | 電信工程學研究所 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-113-2.pdf | 1.16 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
