請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/21935
標題: | 開發尋找鳥類非編碼區域的高保留性序列片段之分析流程 Developing a Workflow of Conserved Non-coding Sequence Analysis for Bird Genomes |
作者: | Ilun Teng 鄧伊倫 |
指導教授: | 陳倩瑜(Chien-Yu Chen) |
關鍵字: | 鳥類基因組,非編碼序列,多序列比對,特徵序列找尋,調控因子結合位, bird genome,non-coding sequence,multiple sequence alignment,motif discovery,regulatory element binding site, |
出版年 : | 2018 |
學位: | 碩士 |
摘要: | 隨著定序技術不斷的創新,越來越多基因體定序資料產生,在有限的經費與人力下,如何大規模且有效地註解基因體也越來越受到重視。目前大多物種的註解資料仍聚焦在能轉譯蛋白質的編碼序列上(protein-coding genes),而近年來越來越多研究顯示基因體其他部分的重要性,因此本研究希望能夠找出可能具有調控功能的非編碼區段,尤其是對資源缺稀的非模式生物物種,提供生物實驗前的預測方案。本研究的實驗物種聚焦在鳥類,一方面,鳥類基因體有其特殊性,是一個相當值得研究的族群,另一方面,本實驗室前不久剛完成對臺灣珍貴特有種鳥類帝雉基因體的定序與全新物種序列組裝(de novo assembly),希望本研究的成果能提供未來對該資料進一步處理的對策。本研究所使用的9種鳥類序列資料均來自公開資料庫,包含全基因體序列、基因體註解檔案、胺基酸序列三種主要格式。基因體註解檔案幾乎只有關於蛋白質編碼部份的訊息。首先將各胺基酸序列去除冗餘性後,將雞與其他8種鳥類做胺基酸序列比對,得到胺基酸序列的跨物種保留情況,之後以這些高度保留的蛋白質於基因體註解檔案中的資訊得到同源基因序列。為尋找可能具有調控功能的區段,本實驗設計自同源基因序列的位置向上下游各延伸2,000個鹼基的長度,做DNA多序列比對。利用比對結果,我們將各位點之保留性量化成分數,從而定義出保留性高的區段。在保留性的量化結果上,可見基因區分數高於非基因區分數、基因內轉譯區分數略高於非轉譯區的分數之趨勢。同時,藉由公開資料庫上已知的調控因子結合位點資訊,比對於上下游非編碼區與高分保留片段的存在比例,可知高分保留片段確實比其他區域更高機率擁有調控因子結合的位置。最後將上下游非編碼區與高分保留片段分別投入特徵序列的找尋(motif discovery),比起將非編碼全區投入找尋,考量進跨物種保留性的結果看起來更能幫助找到更準確的功能性特徵序列,期待本研究開發的分析流程將能大幅加速對鳥類非編碼區域的功能註解。 As sequencing techniques get faster and cheaper, loads of sequencing data accumulate at a speed that annotation, which requires experiments and human curation, cannot keep up, so it would be very valuable if there is a computational pipeline to help with mass annotation. Also, for most species, annotations done so far are mainly focused on the protein-coding genes, but as many studies suggested, non-coding regions also play an important role in gene regulation. This study aims to develop a workflow for non-model organisms, predicting regions of the non-coding sequence which may have regulatory function, to narrow down the targets for biological experiment. This study uses birds as research species. Research materials are downloaded from a publicly available database, including whole genome sequences, protein sequences, and annotation files. Genome annotation for birds is still very limited to coding sequences. There are three aims of this study. First to calculate a conservational score for every base aligned by multiple sequence alignment of nine birds, then define high-scored non-coding regions as highly conserved non-coding fragments. Second, observe the location of publicly available know functional sites, for example, ChIP-Seq positions, with the highly conserved non-coding fragments, and see if there is a correlation. Third to find unknown functional sites by doing motif discovery inside these highly conserved non-coding fragments. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/21935 |
DOI: | 10.6342/NTU201803763 |
全文授權: | 未授權 |
顯示於系所單位: | 生物機電工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-107-1.pdf 目前未授權公開取用 | 2.33 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。