Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 生醫電子與資訊學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/16127
標題: 分子螢光分類模型
Computational Classification Molecular Fluorescence Models
作者: Ze-Hao Lin
林澤豪
指導教授: 曾宇鳳
關鍵字: 高通量篩選,機器學習,隨機森林,
High-throughput Screening,Machine Learning,Random Forest,
出版年 : 2012
學位: 碩士
摘要: 近年來機器學習以及高通量篩選在生物醫學相關領域上廣泛的應用,因此依照研究目標建置出一個好的預測分析模型是個重要的課題。在本篇論文中,我藉由在小分子上所做的螢光測定結果來建立出小分子是否具有吸收/放出特定波段的模型以及螢光篩選規則並加以預測。
一般螢光測定用於各種小分子對小分子、或是蛋白質對蛋白質的之高通量篩選(high throughput screening)反應分析上。但是長久以來我們知道,小分子本身發光與否,卻會大大的影響了分析的結果。因此在我的論文中,將小分子從高通量篩選中正確的預測出自體發光與否是首要的目標。
在本篇論文中,我使用了PubChem Bioassay資料庫當中小分子自體吸收特定光波長能量後再放出特定光波長能量之高通量篩選資料,建立一些螢光的數值預測模型。高通量篩選資料(high throughput screening)的特色是有活性(自體發光)的分子少,沒活性的分子多,並且資料分佈廣而雜亂,因此如何利用一些有效的篩選條件去挑選有用的分子也是一個關鍵。此次研究當中,我使用了PubChem Fingerprint,以傳統化學結構上一維跟二維的結構特性當作分子螢光資料的特徵。首先我從PubChem Bioassay資料庫取出總共132371個分子,建立出了五個分子螢光不同波段的模型。再來利用不同的篩選條件嘗試從高通量篩選多而龐雜的資料中挑選出有用的分子,使用改良過的隨機森林建立一些高準確度的分類模型。再利用PubChem Bioassay資料庫的65419個分子用來做為額外的測試資料,測試一個模型在不同資料群上是否具有良好的預測能力。
另外我也將這一些模型建成了一個小型的伺服器,可以讓想測試自己手上擁有的小分子的使用者藉由我所建造的螢光分類模型預測出小分子發光與否。
In recent years, high throughput screening is widely used to screening potentially active compounds in the drug discovery process. Most of those high throughput screening (HTS) are based on fluorescence detection and often false positive screening results were caused by the compounds having fluorescent properties themselves. To avoid the false positive screening results, it would be helpful if one can identify the compounds and eliminate them before spending effort and money for a screening. It is known fluorescent molecules have certain structural features but it is a challenging task to predict the fluorescence property purely from the chemical structures.
In this thesis, we adopted the five sets of high-throughput screening data from PubChem Bioassay database which small molecules absorb the energy of a specific wavelength and then emission at a specific wavelength. It is very typical to have highly imbalanced ratio of fluorescent compounds and non-fluorescent compound among those assays. Therefore, to construct general rules and high quality predictive models are the keys to have a good fluorescence predictor tool. We used PubChem Fingerprints containing 1D and 2D chemical substructure feature as descriptors. First, five models for different wave bands with 132371 compounds in PubChem BioAssay database were independently constructed. Filters of known chemical knowledge for focused compounds in the HTS data were applied. Total of 65419 compounds are used as the testing data. Finally, a web server for prediction fluorescent molecules was established to help identifying fluorescent compound.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/16127
全文授權: 未授權
顯示於系所單位:生醫電子與資訊學研究所

文件中的檔案:
檔案 大小格式 
ntu-101-1.pdf
  目前未授權公開取用
6.29 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved