請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/89905
標題: | 可控制風格的場景文字編輯 Style Controllable Scene Text Editing |
作者: | 吳玉辰 Yu-Chen Wu |
指導教授: | 陳祝嵩 Chu-Song Chen |
關鍵字: | 場景文字,場景文字編輯,擴散模型, Scene Text,Scene Text Editing,Diffusion Model, |
出版年 : | 2023 |
學位: | 碩士 |
摘要: | 場景文字編輯近年來取得了顯著進展,讓我們能夠將現實世界中的文字轉換成指定的文本內容。過去的研究主要依賴生成對抗網絡(GANs),並著重於從圖像中裁剪目標文字區域來引導編輯過程。隨著擴散模型生成品質的提升與進展,使得場景文字編輯也可使用擴散模型來實現。與大部分 GAN 研究不同,擴散模型通常使用整個場景進行填補,並考慮全局資訊,使填補區域得以更加真實。然而過去的研究比較無法控制所生成的文字風格與輸入及參考影像間的關係。在本研究中,我們著重於提升場景文字編輯的風格可控性。我們開發一個方法,讓用戶在交換真實圖像中的文字時能夠操縱文字風格。我們的方法基於近期的擴散模型DiffSTE 模型。利用 DiffSTE 可在指令中指定風格的特性,我們提出了一個集成風格分類和預訓練文本識別的框架,以引導 DiffSTE 在現實場景中生成帶有所需風格的文字。我們的主要貢獻包括實現真實場景的文字交換,以及對文字外觀的精細控制以及定制字體風格和顏色的能力。所開發的方法與技術可以根據用戶的偏好和具體應用需求增強提取文字的呈現效果。 Scene text editing aims to enable the rewriting and style transformation of texts in realworld images. Previous works mainly relied on Generative Adversarial Networks (GANs) and focused on cropping target text regions for guidance. With the improved generation quality of diffusion models, scene text editing has also adopted diffusion models for implementation. In this work, we emphasize style controllability in scene text editing. Our goal is to develop a system that allows users to manipulate text styles while swapping texts between real images. Our work leverages DiffSTE, a diffusionbased work, to specify styles as instructions. We introduce an approach that integrates style classification and pretrained text recognition for guiding DiffSTE in generating the texts with desired styles in realworld scenes. Our main contributions include achieving realistic scene text swapping, finegrained control over text appearance, and the ability to customize font styles and colors. This approach enhances the rewriting of extracted text according to user preferences and specific application requirements. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/89905 |
DOI: | 10.6342/NTU202301954 |
全文授權: | 同意授權(限校園內公開) |
顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-111-2.pdf 授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務) | 2.95 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。