Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 化學工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/86527
標題: 利用Transformer機器學習模型進行性質預測以及分子設計
Property Prediction and Molecular Design Using Transformer
作者: Shao-Wei Lu
呂紹維
指導教授: 林祥泰(Shiang-Tai Lin)
關鍵字: 機器學習,Transformer模型,變分自動編碼器,計算化學,性質預測,分子設計,
machine learning,Transformer,variational autoencoder,computational chemistry,property prediction,molecular design,
出版年 : 2022
學位: 碩士
摘要: 本研究探索將計算化學(computational chemistry)結合機器學習(machine learning)技術的可能性。在特用化學品的開發以及藥物設計的領域,描述化學結構以及化學性質間的關係一直扮演著很關鍵的角色。傳統上可以在實驗室內透過進行大量實驗的試誤法(trial and error)來達成此目的,但這個方法的效率不彰,且需要大量的時間、人力、金錢等資源成本。因此在這個研究中,我們嘗試利用電腦計算模擬來幫助我們。我們先使用與自然語言(natural language)相近的SMILES(simplified molecular input line entry specification)表示法,讓電腦能夠了解分子的結構,接著利用目前最新穎的自然語言處理模型,也就是Transformer模型,並結合變分自動編碼器(variational autoencoder)的概念來達成性質預測以及分子設計的任務。 在這個方法背後的假設是我們可以利用一個想像出來的高維度向量空間,來逼近實際上複雜的化學空間。因此我們利用模型可應用的三種場景來驗證這個假設。這些使用情境分別是隨機的生成大量新分子,預測感興趣分子的性質,以及設計出具有目標性質的分子。首先,我們發現模型針對訓練分子的重建精確度(reconstruction accuracy)以及設計出新分子的有效性(validity)存在著權衡的關係(trade-off)。接著,我們發現除了訓練資料集內的分子外,模型同樣可以預測新產生分子的性質,這代表著模型的泛化(generalization)能力。最後,我們成功同時利用模型的生成能力以及預測性質的能力,來設計出具有目標性質的分子。總而言之,我們展示了計算化學以及機器學習技術之間的結合,可以同時在性質預測以及分子設計這兩個任務上達到優秀的表現。
This work explores the possibility at the nexus of computational chemistry and machine learning. Describing the relationship between the chemical structure and chemical property has always played an important role in drug design and specialty chemicals development. The most intuitive way is the trial and error approach in the laboratory, but they are inefficient and resource-intensive. Therefore, this work adopts computer-aided approaches. We use language-like SMILES notations to represent the molecular structure on the computer, then leverage the state-of-the-art natural language processing model, that is, Transformer, and integrate the concept of the variational autoencoder to perform property prediction and molecular design. The hypothesis underpinning this work is that we can use a high-dimensional vector space to approximate the complicated real chemical space. Therefore, we verify this hypothesis from three application scenarios: randomly generating a large number of new molecules, predicting the property of molecules of interest, and designing new molecules with the targeted property. First, we prove there is a trade-off between the reconstruction accuracy of the training data and the validity of the newly generated molecules. Besides, the model is not only limited to the training data but can also predict the property of the newly generated molecules, which represents the generalization ability of the model. Finally, we successfully utilize the generative ability and property prediction capability of this model to design molecules with the targeted property. To sum up, we demonstrate that the convergence between computational chemistry and machine learning can create unprecedented performance on both property prediction and molecular design simultaneously.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/86527
DOI: 10.6342/NTU202202303
全文授權: 同意授權(全球公開)
電子全文公開日期: 2022-08-24
顯示於系所單位:化學工程學系

文件中的檔案:
檔案 大小格式 
U0001-1108202215300500.pdf5.28 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved