隨著疫情進(jìn)入攻堅(jiān)階段,基于實(shí)時(shí)熒光RT-PCR法的核酸檢測(cè)技術(shù)在新冠病毒快速鑒定及確診中發(fā)揮了重要作用。然而,若要對(duì)新冠病毒來源、變異進(jìn)化及致病機(jī)理等進(jìn)行研究,需獲取完整的病毒基因組信息,這離不開高通量測(cè)序和病毒序列組裝。
為全面深入地揭示新冠病毒的相關(guān)特性,華大智造可為新型冠狀病毒高通量測(cè)序、序列組裝、變異進(jìn)化分析等流程提供一體化解決方案,并已協(xié)助全國(guó)多地疾控中心成功組裝新型冠狀病毒全長(zhǎng)序列。結(jié)果顯示,它們與公布的參考基因組序列高度一致。
新冠病毒序列組裝過程中的難點(diǎn)及要求
如大家所知,高通量測(cè)序在新冠病毒鑒定及診斷中可與RT-PCR法形成互補(bǔ),不僅能提高陽性檢出率,還能進(jìn)行并發(fā)檢測(cè),提供更多可能感染的病原信息。更為重要的是,它還可以對(duì)病毒序列進(jìn)行組裝,獲得病毒全長(zhǎng)基因組信息,為追溯病毒來源、監(jiān)測(cè)病毒變異趨勢(shì)、探究致病機(jī)理提供研究基礎(chǔ)。
為獲取完整的病毒基因組序列,目前廣泛應(yīng)用的高通量測(cè)序技術(shù)是將核酸序列打斷成短片段進(jìn)行測(cè)序,然后通過分析軟件將測(cè)得的短序列進(jìn)行拼接組裝。然而,新型冠狀病毒作為一種新發(fā)病毒,人們?cè)跍y(cè)序深度、測(cè)序準(zhǔn)確性、重復(fù)序列比例等方面,還沒有形成具有參考意義的經(jīng)驗(yàn)值。如果要將海量的短序列還原出原始的基因組序列,則會(huì)在序列拼接中出現(xiàn)以下問題:
首先,難免出現(xiàn)測(cè)序錯(cuò)誤,導(dǎo)致某些重疊可信度低;其次,基因組序列的不完全覆蓋性以及高重復(fù)序列的干擾,會(huì)影響拼接的準(zhǔn)確性和完整性;最后,宏轉(zhuǎn)錄組測(cè)序樣本中的人源序列占85%以上,病原序列僅占5%左右,這使得病毒基因組序列拼接難度更高。
![](/imgatl/2018/2020225151645424.jpg)
圖1 序列拼接組裝難點(diǎn)及其對(duì)測(cè)序方案的要求
優(yōu)化測(cè)序策略,確保病毒序列信息完整性
為破解上述新冠病毒序列在組裝過程中遇到的難題,華大智造可提供含建庫(kù)、高通量測(cè)序、序列組裝、變異進(jìn)化分析等流程在內(nèi)的一體化解決方案。
在建庫(kù)環(huán)節(jié)中,為避免樣本在采樣、保存和運(yùn)輸過程中因不確定性導(dǎo)致提取的核酸含量出現(xiàn)較大差異,華大智造可提供兩種方案:一是對(duì)核酸含量高的樣本建議進(jìn)行rRNA去除再建庫(kù),提高有效數(shù)據(jù)占比;二是對(duì)核酸含量低的樣本,直接進(jìn)行RNA建庫(kù),減少核酸損失,提升建庫(kù)成功率,并加大測(cè)序深度。
其次,在測(cè)序環(huán)節(jié)采用華大智造MGISEQ-200測(cè)序儀,它不僅小巧靈活,同時(shí)高效專注,已協(xié)助全國(guó)多地疾控中心完成鑒定并成功拼接出各地首例新冠病毒序列。
最后,通過病原鑒定系統(tǒng)對(duì)新冠病毒序列進(jìn)行數(shù)據(jù)分析并采用IDBA方法完成拼接。
這樣,即使是在未去除宿主的情況下,也可以滿足宏轉(zhuǎn)錄組測(cè)序病毒序列組裝對(duì)數(shù)據(jù)量的要求,保證序列信息的完整性。
![](/imgatl/2018/2020225151741617.jpg)
圖2 針對(duì)新型冠狀病毒序列組裝的解決方案與策略
實(shí)例解析新冠病毒全基因組序列獲取全流程
接下來,我們將以某疾控中心收到的1例新冠病毒肺炎疑似樣本為例,為您解析該CDC首例新型冠狀病毒感染病例呼吸道標(biāo)本宏轉(zhuǎn)錄組測(cè)序及病毒序列組裝全流程:
![](/imgatl/2018/2020225151838150.jpg)
圖3 新型冠狀病毒全基因組序列獲取全流程
新冠病毒全基因組序列獲取全流程
2020年1月20日 - 1月22日上午
1月20日,文庫(kù)制備
針對(duì)核酸量不同的樣本,團(tuán)隊(duì)分別采用了不同的建庫(kù)策略,并使用MGIEasy RNA文庫(kù)制備試劑套裝進(jìn)行建庫(kù)。經(jīng)反轉(zhuǎn)錄、接頭連接、PCR擴(kuò)增、純化等一系列操作后獲得文庫(kù)產(chǎn)物,再使用滾環(huán)擴(kuò)增技術(shù),制備DNA納米球。
![](/imgatl/2018/2020225151946879.jpg)
圖4 MGIEasy RNA文庫(kù)制備試劑套裝
1月21日,上機(jī)測(cè)序
基于MGISEQ-200平臺(tái),對(duì)該地發(fā)現(xiàn)的首例病例的呼吸道標(biāo)本進(jìn)行300M的高深度測(cè)序。
![](/imgatl/2018/2020225152019401.jpg)
圖5 某疾控中心運(yùn)行的MGISEQ-200測(cè)序儀
1月22日上午,數(shù)據(jù)分析
產(chǎn)出32Gb數(shù)據(jù),總reads數(shù)318M。結(jié)合病原感染快速鑒定系統(tǒng),鑒定出2,337,442條新型冠狀病毒reads。
![](/imgatl/2018/2020225152134416.jpg)
圖6 分析報(bào)告病毒鑒定結(jié)果
1月22日上午,拼接組裝
分析軟件自動(dòng)將2,337,442條的新型冠狀病毒reads從所有序列中抽出。使用拼接效率高的IDBA方法進(jìn)行組裝,成功完成新型冠狀病毒的序列組裝,獲得基因組序列全長(zhǎng)29.9kb。
![](/imgatl/2018/2020225152211247.jpg)
圖7 病毒基因組序列拼接組裝流程
知己知彼,百戰(zhàn)不殆。盡管我們對(duì)新型冠狀病毒的認(rèn)識(shí)有待進(jìn)一步研究,但通過宏轉(zhuǎn)錄組測(cè)序和病毒序列組裝獲得新型冠狀病毒全基因組序列,有助于揭示病毒相關(guān)特性。通過對(duì)全基因組序列相似性比較和變異位點(diǎn)分析,可以為構(gòu)建進(jìn)化圖譜、追溯病毒來源、追蹤變異路徑、了解致病機(jī)理等提供重要參考信息,助力抗擊疫情。