背景及概述[1-2]
對(duì)已有參考基因組序列的物種進(jìn)行個(gè)體或群體全基因組測(cè)序稱為全基因組重測(cè)序。全基因組重測(cè)序結(jié)果與已有參考基因組序列進(jìn)行比對(duì),檢測(cè)出全基因組范圍的單核苷酸多態(tài)、插入缺失突變、拷貝數(shù)變異和機(jī)構(gòu)變異等變異信息,獲得個(gè)體或群體分子遺傳特征,進(jìn)行動(dòng)物重要經(jīng)濟(jì)性狀候選基因預(yù)測(cè)及遺傳進(jìn)化分析,廣泛應(yīng)用于遺傳變異檢測(cè)、性狀基因定位、遺傳圖譜構(gòu)建和遺傳進(jìn)化研究。全基因組重測(cè)序數(shù)據(jù)分析最關(guān)鍵的一步在于序列比對(duì),將重測(cè)序所得的reads序列與已有的參考基因組序列進(jìn)行相似性比較,比對(duì)過(guò)程一般按兩步進(jìn)行:首先歸類(lèi)整理reads數(shù)據(jù)或參考基因組序列,然后用適當(dāng)算法比對(duì)和定位reads序列。
測(cè)序指標(biāo)[3]
測(cè)序深度和測(cè)序覆蓋度是評(píng)價(jià)測(cè)序量的兩個(gè)重要指標(biāo):測(cè)序深度是評(píng)價(jià)樣本測(cè)序量的一個(gè)指標(biāo),指測(cè)序獲取的堿基總量與基因組大小的比值。測(cè)序深度越大,出現(xiàn)假陽(yáng)性結(jié)果的概率越小。如果待測(cè)序個(gè)體采用的是雙末端測(cè)序法,測(cè)序深度需要控制在50X~100X以上,才能保證基因組覆蓋度和控制測(cè)序錯(cuò)誤率。測(cè)序覆蓋度指基因組被測(cè)序得到的堿基覆蓋的比例,反映測(cè)序的隨機(jī)性,且其與測(cè)序深度之間存在正相關(guān)關(guān)系,通過(guò)Lander-WatermanModel可以確定測(cè)序深度與覆蓋度間的具體關(guān)系。
技術(shù)發(fā)展[3]
全基因組重測(cè)序技術(shù)主要使用第2代測(cè)序技術(shù)(NGS)和第3代測(cè)序技術(shù)。
1)第1代測(cè)序技術(shù)又稱Sanger測(cè)序法(雙脫氧末端終止法),20世紀(jì)90年代初開(kāi)始使用的DNA測(cè)序方法,采用循環(huán)測(cè)序模式,但是在讀取堿基信息時(shí)容易出錯(cuò),且每次獲取的數(shù)據(jù)量少。SangerDNA測(cè)序法經(jīng)過(guò)不斷地發(fā)展,測(cè)序的準(zhǔn)確度達(dá)到幾乎100%,測(cè)序片段長(zhǎng)度已經(jīng)達(dá)到1000kb。
2)第2代測(cè)序技術(shù)是高通量測(cè)序,中心思想是邊合成邊測(cè)序,即用不同顏色的熒光標(biāo)記A、T、C、G4種堿基,然后根據(jù)新合成末端的標(biāo)記來(lái)確定待測(cè)DNA的序列。支持的技術(shù)平臺(tái)主要有Illumina/SolexaGenomeAnalyzer、Roche/454FLX和AppliedBiosystemsSOLIDsystem,三個(gè)平臺(tái)各有優(yōu)勢(shì)。大致流程是構(gòu)建測(cè)序文庫(kù)→進(jìn)行錨定連接→預(yù)擴(kuò)增→單堿基延伸測(cè)序→數(shù)據(jù)分析。第2代測(cè)序技術(shù)已經(jīng)實(shí)現(xiàn)了快速、低成本地檢測(cè)全基因組序列,獲得的數(shù)據(jù)量大大增多。
3)第3代測(cè)序技術(shù)于2011年正式推廣,在進(jìn)行基因組測(cè)序時(shí),不需要PCR擴(kuò)增,直接測(cè)序,能單獨(dú)測(cè)序每條DNA分子,因此又被稱為單分子測(cè)序技術(shù),測(cè)序成本更低。有單分子熒光測(cè)序(SMRT技術(shù))和納米孔測(cè)序(電泳技術(shù))兩大測(cè)序技術(shù),支持的技術(shù)平臺(tái)主要有Heliscope/HelicosGeneticAnalysisSystem、SMRT和納米孔單分子。其中納米孔測(cè)序技術(shù)能完全擺脫洗脫和PCR擴(kuò)增過(guò)程,實(shí)現(xiàn)超高讀長(zhǎng)、高通量、更少的測(cè)序時(shí)間和更為簡(jiǎn)單的數(shù)據(jù)分析。每一代測(cè)序技術(shù)在當(dāng)時(shí)都發(fā)揮著重要的作用,并且一直更新?lián)Q代。但是人們對(duì)科研的要求越來(lái)越高希望能用較少的成本、較少的時(shí)間檢測(cè)出更多的基因組信息,相信最新的測(cè)序技術(shù)能改變世界。隨著科技的進(jìn)步,檢測(cè)手段越來(lái)越先進(jìn),測(cè)序可變得便捷、高效。
應(yīng)用[3]
1.在動(dòng)物方面的應(yīng)用
通過(guò)基因比對(duì),能夠預(yù)測(cè)與動(dòng)物重要性狀有關(guān)的候選基因,通過(guò)全基因組重測(cè)序能夠定位QTL,預(yù)測(cè)候選基因,分析群體進(jìn)化過(guò)程等。利用全基因組重測(cè)序技術(shù)在動(dòng)物育種方面也取得了一些研究成果。全基因組重測(cè)序技術(shù)的不斷發(fā)展和應(yīng)用,在基因組研究領(lǐng)域取得了一定的成果,比如構(gòu)建遺傳圖譜、分析群體進(jìn)化、性狀基因定位、檢測(cè)變異等。2000年就完成了黑腹果蠅全基因組序列的測(cè)定,其作為模式生物,在基因組學(xué)和基因功能學(xué)領(lǐng)域取得了很大的成就,這些研究成果可以應(yīng)用在醫(yī)學(xué)、生命科學(xué)等領(lǐng)域。研究人員選取3個(gè)突變世襲果蠅(自交286代),共發(fā)現(xiàn)了174個(gè)可信SNP。在不同測(cè)序深度條件下,統(tǒng)計(jì)突變數(shù)量、SNP位點(diǎn)和突變率。江西農(nóng)業(yè)大學(xué)、華大基因和加利福尼亞大學(xué)的研究人員利用全基因組重測(cè)序揭示了豬的環(huán)境適應(yīng)性分子機(jī)制,在全基因組范圍內(nèi)證明了219個(gè)基因位點(diǎn)與豬種環(huán)境適應(yīng)性有關(guān)。
另外,證實(shí)了中國(guó)地方豬對(duì)培育世界豬種做出過(guò)重要貢獻(xiàn)。我國(guó)地域面積廣大,研究結(jié)果可以指導(dǎo)培育我國(guó)豬種適應(yīng)不同的地域環(huán)境,促進(jìn)養(yǎng)豬業(yè)持續(xù)健康發(fā)展。以2頭奶牛和232頭公牛為研究對(duì)象,利用全基因組重測(cè)序技術(shù)共檢測(cè)出了283萬(wàn)個(gè)變異和與產(chǎn)奶量、胚胎死亡以及卷毛等性狀有關(guān)的基因,為改善產(chǎn)奶量提供科學(xué)依據(jù),其中胚胎死亡直接影響牛的繁殖性能。首次用RAD-seq(限制性內(nèi)切位點(diǎn)相關(guān)的DNA測(cè)序)對(duì)3個(gè)國(guó)外引進(jìn)雞種和13個(gè)中國(guó)雞種進(jìn)行SNP和基因分型研究,經(jīng)過(guò)嚴(yán)格篩選新發(fā)現(xiàn)了15404個(gè)SNPs。通過(guò)對(duì)3頭巴克夏母豬進(jìn)行基因組重測(cè)序,并與38個(gè)其他個(gè)體的基因組重測(cè)序數(shù)據(jù)進(jìn)行比對(duì),對(duì)SNP進(jìn)行主成分分析,發(fā)現(xiàn)巴克夏豬含有更多中國(guó)豬血液,揭示了豬種之間的遺傳關(guān)系,鑒定出了巴克夏的人工選擇痕跡,為改善豬遺傳育種提供重要信息。對(duì)小尾寒羊、蒙古羊和多浪羊進(jìn)行全基因組重測(cè)序,得到了大量的結(jié)構(gòu)變異,揭示中國(guó)短脂尾綿羊微進(jìn)化關(guān)系,同時(shí)預(yù)測(cè)了7個(gè)基因與其繁殖性狀相關(guān),MMP14、HMGCR、PRL等8個(gè)基因在小尾寒羊中發(fā)生了進(jìn)化,只有HOXA10基因在蒙古羊中發(fā)生進(jìn)化。易綜合上述的研究成果,利用全基因組重測(cè)序技術(shù)研究動(dòng)物的重要經(jīng)濟(jì)性狀,能夠獲得全基因組范圍內(nèi)的變異位點(diǎn),找到與之相關(guān)的候選基因。但是關(guān)于如何在分子育種中利用這些變異和基因,加快優(yōu)良品種的培育和性能的改善,目前還沒(méi)有出現(xiàn)相關(guān)的應(yīng)用報(bào)道。利用全基因組重測(cè)序技術(shù)發(fā)掘基因組信息和基因還處于研究階段,離真正地將基因加以應(yīng)用還有一段距離。
2. 全基因組重測(cè)序在其他領(lǐng)域的應(yīng)用
除了在動(dòng)物育種方面的運(yùn)用,全基因組重測(cè)序在植物、微生物和昆蟲(chóng)等方面也有應(yīng)用。比如利用IlluminaHiSeq2000and2500平臺(tái)對(duì)水稻種質(zhì)資源-KRICE_CORE進(jìn)行全基因組重測(cè)序,并用2046529個(gè)高質(zhì)量SNPs進(jìn)行系統(tǒng)發(fā)育和群體分析,研究結(jié)果有助于以后的分子育種、功能和進(jìn)化研究。以3個(gè)不同楊樹(shù)品種為研究對(duì)象,利用全基因組重測(cè)序的數(shù)據(jù)來(lái)表征和比較3個(gè)品種的核苷酸多態(tài)性、位點(diǎn)頻率圖譜和群體規(guī)模重組率。研究結(jié)果能幫助人們理解各種進(jìn)化力如何相互影響,從而影響相關(guān)物種之間的基因組進(jìn)化。隨著科學(xué)技術(shù)的日新月異,從發(fā)表人類(lèi)基因組工作草圖至今,已經(jīng)過(guò)去了十幾年,在此期間報(bào)道了大量的研究成果,涉及動(dòng)物、植物、微生物和人類(lèi)疾病等方面,測(cè)序技術(shù)越來(lái)越發(fā)達(dá),研究?jī)?nèi)容也越來(lái)越深入,在基因組水平的研究取得了一定的進(jìn)步和理論突破。
全基因組重測(cè)序技術(shù)在我國(guó)在植物和微生物領(lǐng)域進(jìn)行研究的應(yīng)用比較多,在動(dòng)物方面主要用全基因組重測(cè)序發(fā)現(xiàn)影響重要經(jīng)濟(jì)性狀相關(guān)的變異位點(diǎn)和候選基因,再對(duì)其進(jìn)行下一步的驗(yàn)證,以期加快動(dòng)物分子育種的步伐。全基因組重測(cè)序只是基因組研究的一個(gè)縮影,基因組測(cè)序、蛋白質(zhì)和轉(zhuǎn)錄組學(xué)在生命科學(xué)領(lǐng)域也發(fā)揮著重要的作用。比如2016年2月,在《Nature》雜志報(bào)道了鰻草的全基因組序列,該研究具有極高的科研價(jià)值,有助于研究人員深入探究有助于生物量生產(chǎn)和恢復(fù)的遺傳因素,也有助于海草的保護(hù)和恢復(fù)。2016年3月在《Science》雜志發(fā)表了人工合成了世界上最小的基因組-Syn3.0,研究目標(biāo)是深入了解細(xì)胞的生命活動(dòng)機(jī)以及利用這些有機(jī)體和新加入的基因生產(chǎn)出人類(lèi)所學(xué)的燃料、藥物等物質(zhì)。另外,還有很多基因組學(xué)的研究為生命領(lǐng)域的探索打開(kāi)了一道大門(mén),揭示了生命的奧秘。
存在的問(wèn)題和解決方法[3]
全基因組重測(cè)序技術(shù)已經(jīng)經(jīng)歷了3代,測(cè)序手段和技術(shù)越加先進(jìn),檢測(cè)的精確性和完整性提高,也取得了一些技術(shù)和理論突破,但同時(shí)也帶來(lái)了一些挑戰(zhàn)。對(duì)個(gè)體或群體進(jìn)行重測(cè)序,會(huì)出現(xiàn)龐大的數(shù)據(jù),如何有效、快速地儲(chǔ)存、處理和分析數(shù)據(jù)是人們面臨問(wèn)題之一。主要問(wèn)題就是怎樣利用大數(shù)據(jù)以及利用哪些數(shù)據(jù),如果不能經(jīng)濟(jì)有效地利用測(cè)序數(shù)據(jù)或者利用了無(wú)效數(shù)據(jù),就會(huì)造成資源浪費(fèi)甚至得到錯(cuò)誤的結(jié)論。因此,如果能夠克服數(shù)據(jù)儲(chǔ)存和分析的難題。將會(huì)促進(jìn)重測(cè)序的廣泛應(yīng)用。解決這一問(wèn)題的方法有:①簡(jiǎn)化基因組重測(cè)序的數(shù)據(jù),能去除冗長(zhǎng)、無(wú)用的信息,保留有用信息。②降低測(cè)序產(chǎn)生的錯(cuò)誤率,提高準(zhǔn)確性。如果物種基因組太大,測(cè)序深度不夠的話,會(huì)降低結(jié)果的準(zhǔn)確性。③處理數(shù)據(jù)的軟件和系統(tǒng)能夠普及化。很多單位得到數(shù)據(jù),但不會(huì)使用軟件分析。開(kāi)發(fā)簡(jiǎn)單易懂的軟件或者提供具體的軟件使用手冊(cè),使數(shù)據(jù)分析軟件能夠普及。④降低測(cè)序成本。對(duì)于普通科研單位來(lái)說(shuō),全基因組測(cè)序成本還是比較昂貴的,如果大樣本研究的話,很難承受高昂的測(cè)序成本,就限制了全基因組重測(cè)序技術(shù)的使用。如果能降低測(cè)序成本,提高基因檢測(cè)水平,那么就有可能實(shí)現(xiàn)大規(guī)模檢測(cè)基因。
主要參考資料
[1] 基因組測(cè)序技術(shù)及其應(yīng)用研究進(jìn)展
[2] 全基因組測(cè)序在重要家畜上的研究進(jìn)展
[3] 全基因組重測(cè)序及其在動(dòng)物育種的研究進(jìn)展