背景[1-5]
生物信息學是生物學,計算機科學,信息工程,數學和統計學的綜合學科,主要內容是使用生物算法和相關的軟件工具采集、處理、存儲、分析和解釋生物數據。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發(fā),分析序列中表達的結構功能的生物信息。生物信息學已成為許多生物學領域的重要組成部分。
在實驗分子生物學中,生物信息學技術如圖像和信號處理可以從大量原始數據中提取有用的結果。在遺傳學領域,它有助于測序和注釋基因組及其觀察到的突變。它在生物文學的文本挖掘和生物學基因本體的發(fā)展中起著重要作用。它還在基因和蛋白質表達和調節(jié)的分析中起著重要作用作用。生物信息學工具有助于比較遺傳和基因組數據,更普遍地用于理解分子生物學的進化方面。
在更綜合的層面上,它有助于分析和編目作為系統生物學重要組成部分的生物途徑和網絡。在結構生物學中,它有助于DNA,RNA,蛋白質的建模以及分析生物分子的相互作用?;旧镄畔W服務按EBI分為三類:SSS(序列搜索服務),MSA(多序列比對)和BSA(生物序列分析)。
應用[6][7][8]
1. 基因序列分析
大多數DNA測序技術產生需要組裝的短序列片段以獲得完整的基因或基因組序列。這些片段的末端重疊,并且當通過基因組裝配程序適當比對時,可用于重建完整的基因組。隨著數據量的不斷增加,很久以前人工分析DNA序列變得不切實際。今天計算機程序如BLAST每天用于從多于260個000有機體查詢序列,含有超過190十億個核苷酸。這些程序可以補償DNA序列中的突變(交換,缺失或插入的堿基),以識別相關但不相同的序列。
1.1. DNA測序序列分析;
1.2. 基因組注釋;
1.3.比較基因組學分析;
1.4.比較基因組學分析;
1.5.泛基因組學分析;
1.6.疾病遺傳及癌癥突變分析;
2.基因和蛋白質表達分析
2.1基因表達分析;
2.2蛋白質表達分析;
2.3表達信號通路分析
3.結構生物信息學
蛋白質的氨基酸序列,即所謂的一級結構,可以從編碼它的基因上的序列容易地確定。在絕大多數情況下,該主要結構唯一地確定其原生環(huán)境中的結構。這種結構的知識對于理解蛋白質的功能至關重要。在生物信息學的結構分支中,同源性用于確定蛋白質的哪些部分在結構形成和與其他蛋白質的相互作用中是重要的。
在稱為同源建模的技術中,一旦已知同源蛋白質的結構,該信息用于預測蛋白質的結構。這目前仍然是可靠地預測蛋白質結構的唯一方法。結構生物信息學的另一方面包括將蛋白質結構用于虛擬篩選模型,例如定量結構-活性關系模型和蛋白質化學模型(PCM)。
4. 網絡和系統生物學
網絡分析旨在了解生物網絡中的關系,如代謝或蛋白質-蛋白質相互作用網絡。盡管生物網絡可以由單一類型的分子或實體(例如基因)構建,但網絡生物學通常會嘗試整合許多不同的數據類型,例如蛋白質,小分子,基因表達數據等。系統生物學涉及使用計算機模擬的蜂窩子系統也可以用人工智能或虛擬進化試圖簡單模擬其進化過程。
參考文獻
[1] Lesk,A.M.(26 July 2013)."Bioinformatics".Encyclopaedia Britannica.Retrieved 17 April 2017.
[2] Sanger F,Air GM,Barrell BG,Brown NL,Coulson AR,Fiddes CA,Hutchison CA,Slocombe PM,Smith M(February 1977)."Nucleotide sequence of bacteriophage phi X174 DNA".Nature.265(5596):687–95.Bibcode:1977Natur.265.687S.
[3] Benson DA,Karsch-Mizrachi I,Lipman DJ,Ostell J,Wheeler DL(January 2008)."GenBank".Nucleic Acids Res.36(Database issue):D25–30.doi:10.1093/nar/gkm929.PMC 2238942.PMID 18073190.
[4] Grau,J.;Ben-Gal,I.;Posch,S.;Grosse,I.(1 July 2006)."VOMBAT:prediction of transcription factor binding sites using variable order Bayesian trees"(PDF).Nucleic Acids Research.34(Web Server):W529–W533.
[5] "The Human Protein Atlas".www.proteinatlas.org.Retrieved 2017-10-02.
[6] Nisbet,Robert(14 May 2009)."BIOINFORMATICS".Handbook of Statistical Analysis and Data Mining Applications.John Elder IV,Gary Miner.Academic Press.p.328.ISBN 9780080912035.Retrieved 9 May 2014.
[7] Fleischmann RD,Adams MD,White O,Clayton RA,Kirkness EF,Kerlavage AR,Bult CJ,Tomb JF,Dougherty BA,Merrick JM(July 1995)."Whole-genome random sequencing and assembly of Haemophilus influenzae Rd".Science.269(5223):496–512.Bibcode:1995Sci.269.496F.
[8] Carter,N.P.;Fiegler,H.;Piper,J.(2002)."Comparative analysis of comparative genomic hybridization microarray technologies:Report of a workshop sponsored by the Wellcome trust".Cytometry Part A.49(2):43–8.