Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 生命科學院
  3. 基因體與系統生物學學位學程
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97546
標題: 與生醫資料庫對話:透過自然語言轉SQL、文字嵌入及知識圖譜方法探索檢索增強生成的應用
Communicating with Biomedical Databases: Exploring Retrieval-Augmented Generation via Text-to-SQL, Text Embedding, and Knowledge Graph-Based Approaches
作者: 葉政翔
Zheng-Xiang Ye
指導教授: 林仲彥
Chung-Yen Lin
關鍵字: 生物資料庫,大型語言模型,檢索增強生成,語意搜尋,知識圖譜,自然語言轉SQL,
biological databases,large language models,retrieval-augmented generation,semantic search,knowledge graph,text-to-SQL,
出版年 : 2025
學位: 碩士
摘要: 生物資料庫作為實驗研究與文獻彙整的核心樞紐,使科學家能高效的存取其專業領域內的資訊。資料庫提供者的目標不僅在於收集高品質的數據,亦在於確保服務的穩定性及搜尋結果的準確性。近年來大型語言模型的突破賦予模型強大的語意理解能力,使直覺式的自然語言搜尋成為可能。本研究整合大型語言模型至兩個不同的生物資料庫。MSCare是一個基於間質幹細胞PubMed文獻所建構的聊天機器人,為與非結構化文字資料互動的例子;TWHM聊天機器人則輔助臺灣漢醫藥 (TWHM) 資料庫,為與關聯式資料庫中結構化資料互動的例子。MSCare利用文字嵌入 (text embeddings) 與知識圖譜 (knowledge graph) 擷取相關文獻資訊並進行推理;TWHM聊天機器人則利用大型語言模型生成SQL,以支援藉自然語言進行進階資料庫查詢的技術。本研究設計了客製化的評估方法,用以分析並提升兩個系統的回應品質。結果顯示,MSCare在超過75%的問題上優於基準的大型語言模型,該表現主要來自於文字嵌入方法的貢獻。知識圖譜進一步提升了回應多樣性,並支援間接關係的推理,儘管在回應完整性方面仍有部分限制。MSCare的知識圖譜呈現無尺度網路 (scale-free network) 的特性,並有效捕捉MSC研究中的生物實體。藉本研究設計之資料表選擇與查詢優化策略,TWHM聊天機器人在SQL生成與執行方面有高成功率。本研究驗證了整合大型語言模型至生物資料庫的可行性。然而,在知識圖譜建構、檢索策略及系統效能的評估上仍存在挑戰,為後續研究與優化的重要方向。
Biological databases serve as central hubs for collecting and organizing experimental research and literature, enabling scientists to efficiently access domain-specific information. Database providers aim not only to curate high-quality data but also to ensure stable services and accurate search results. Recent advances in large language models (LLMs) have introduced powerful semantic understanding capabilities, allowing for more intuitive searches using natural language. This study explores the integration of LLMs into two distinct biological databases. MSCare, a chatbot built on PubMed articles related to mesenchymal stem cells (MSCs), enables interaction with unstructured textual data. The TWHM chatbot, developed to supplement the Taiwan Han Medicine (TWHM) database, facilitates interaction with structured data stored in a relational database. MSCare integrates text embeddings and a knowledge graph to extract biomedical content and support reasoning, while the TWHM chatbot uses LLM-based SQL query generation to support advanced searches based on natural language questions. Custom evaluation methods were developed to assess and enhance the response quality of both systems. Results show that MSCare outperforms a baseline LLM on more than 75% of questions, with the primary contribution coming from the text embedding approach. The knowledge graph further enhances response diversity and supports reasoning over indirect relationships, despite some limitations in contextual completeness. The MSC knowledge graph exhibits scale-free properties and effectively captures key entities central to MSC research. The TWHM chatbot achieves a high success rate in SQL query generation and execution, enabled by tailored schema selection and query refinement strategies. This study demonstrates the feasibility of integrating LLMs into biological databases. Nevertheless, challenges remain in knowledge graph construction, retrieval strategy design, and precise system performance evaluation. These areas represent key directions for future enhancement.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97546
DOI: 10.6342/NTU202501236
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-07-03
顯示於系所單位:基因體與系統生物學學位學程

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf10.3 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved