請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99266| 標題: | 透過可追溯的提示詞提升場景設計中圖像編輯的可控性 GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design |
| 作者: | 李婷穎 Ting-Ying Lee |
| 指導教授: | 陳炳宇 Bing-Yu Chen |
| 關鍵字: | 生成式人工智慧,以人為本的人工智慧,場景設計,創意支援工具,視覺探索,可追溯提示詞, Generative AI,Human-Centered AI,Environment Design,Creativity Support Tool,Visual Exploration,Traceable Prompt, |
| 出版年 : | 2025 |
| 學位: | 碩士 |
| 摘要: | 在娛樂產業中,場景設計師為遊戲、電影與電視製作2D與3D場景,他們不僅需要對細節有精細掌控,也需要維持整體畫面的一致性。隨著科技發展,設計師們越來越需要在工作流程中使用生成式人工智慧(Generative AI),例如,使用大型語言模型(LLMs)來增強文字生成圖像的提示詞(prompts),再反覆迭代修改提示詞與局部修補(inpainting)來精修圖像。然而,我們針對10位設計師進行的初步研究顯示了兩項主要挑戰:(1)LLM生成的提示語非常冗長複雜,導致設計師難以理解並且找出對應特定視覺元素的關鍵詞;(2)雖然局部修補能編輯特定區域,但在維持圖像整體一致性與合理性方面是一大挑戰。
基於這些觀察,我們提出GenTune,一個強調人與AI協作的系統,透過清楚地呈現AI生成提示詞與圖像內容之間的對應關係,來幫助設計師更有效地進行編輯。GenTune系統讓設計師可以選取生成圖像中的任意物件,追溯其對應的提示詞標籤,並透過這些標籤引導圖像進行精準且整體一致的優化。在一項針對20位設計師的總結性研究中,GenTune在提示詞與圖像的理解度、編輯品質與效率、以及整體滿意度方面,均較現行方法有顯著提升(皆達顯著水準,p < .01)。隨後在兩家設計工作室進行的實地研究亦進一步證明其在真實工作場景中的有效性。 Environment designers in the entertainment industry create imaginative 2D and 3D scenes for games, films, and television, requiring both fine-grained control of specific details and consistent global coherence. Designers have increasingly integrated generative AI into their workflows, often relying on large language models (LLMs) to enhance user prompts for text-to-image generation, then iteratively refining those prompts and applying inpainting. However, our formative study with 10 designers surfaced two key challenges: (1) the lengthy LLM-generated prompts make it difficult to understand and isolate the keywords that must be revised for specific visual elements; and (2) while inpainting supports localized edits, it can struggle with global consistency and correctness. Based on these insights, we present GenTune, an approach that enhances human–AI collaboration by clarifying how AI-generated prompts map to image content. Our GenTune system lets designers select any object in a generated image, trace it back to the corresponding prompt labels, and revise those labels to guide precise yet globally consistent image refinement. In a summative study with 20 designers, GenTune significantly improved prompt-image comprehension, refinement quality and efficiency, and overall satisfaction (all p < .01) compared to current practice. A follow-up field study with two studios further demonstrated its effectiveness in real-world settings. |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99266 |
| DOI: | 10.6342/NTU202502389 |
| 全文授權: | 同意授權(限校園內公開) |
| 電子全文公開日期: | 2025-08-22 |
| 顯示於系所單位: | 資訊管理學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-113-2.pdf 授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務) | 18.29 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
