在基因組變異中,拷貝數(shù)變異(CNV) 是癌癥的重要遺傳驅(qū)動(dòng)因素 。CNV 是基因組事件,其中特定基因的拷貝數(shù)因個(gè)體而異,甚至因細(xì)胞而異。腫瘤細(xì)胞與導(dǎo)致基因擴(kuò)增和基因缺失的體細(xì)胞CNV變化有關(guān)。然而,由于缺乏單細(xì)胞全基因組測(cè)序,很難在單細(xì)胞中檢測(cè)和量化CNV事件。相比之下,單細(xì)胞RNA測(cè)序技術(shù)的快速發(fā)展能夠獲得單細(xì)胞整個(gè)基因表達(dá)譜的數(shù)據(jù),然而在單細(xì)胞中確定 CNV 非常具有挑戰(zhàn)性。由于基因表達(dá)的不均勻覆蓋和動(dòng)態(tài)變化,推斷CNV的方法面臨困難。但是,現(xiàn)在也已經(jīng)開發(fā)出一些算法針對(duì)scRNA轉(zhuǎn)錄組數(shù)據(jù)推斷CNV事件,其中,inferCNV是一個(gè)常用的從腫瘤單細(xì)胞RNA-Seq數(shù)據(jù)推斷拷貝數(shù)變化分析的工具,用于識(shí)別數(shù)據(jù)中的惡性細(xì)胞。R包inferCNV源于2014年發(fā)表在science上的一篇文章,后由broad研究所開發(fā)而成。下圖為inferCNV整體分析過(guò)程。
infercnv用于探索腫瘤單細(xì)胞RNA-Seq數(shù)據(jù),以確定體細(xì)胞大規(guī)模染色體拷貝數(shù)改變的證據(jù),例如整個(gè)染色體或染色體的大片段的增加或缺失。在整個(gè)基因組范圍內(nèi),將每個(gè)腫瘤細(xì)胞基因表達(dá)與平均表達(dá)或“正常”參考細(xì)胞基因表達(dá)對(duì)比,通過(guò)熱圖的形式展示每條染色體上的基因相對(duì)表達(dá)量?梢灾庇^看出,相對(duì)于正常細(xì)胞來(lái)講,腫瘤細(xì)胞基因組會(huì)發(fā)生大規(guī)模的過(guò)表達(dá)或者低表達(dá)。infercnv提供了幾個(gè)殘余表達(dá)過(guò)濾器,以探索最小化噪聲并進(jìn)一步揭示支持CNA的信號(hào)。此外,infercnv還包括預(yù)測(cè)CNA區(qū)域和根據(jù)異質(zhì)性模式定義細(xì)胞簇的方法。
百篇文獻(xiàn)中近20%的文獻(xiàn)中用到了該分析,常見(jiàn)的結(jié)果展示圖如下:
以下是我們復(fù)現(xiàn)結(jié)果:
這是初步的infercnv 結(jié)果,未經(jīng)過(guò)denoise或HMM(隱馬爾科夫模型,HiddenMarkov Model)。正常細(xì)胞的表達(dá)值繪制在頂部熱圖中,可能具有惡性的細(xì)胞繪制在底部熱圖中,基因在整個(gè)染色體上從左到右排列。通過(guò)有效地從惡性細(xì)胞表達(dá)數(shù)據(jù)中減去正常細(xì)胞表達(dá)數(shù)據(jù)以產(chǎn)生差異,其中染色體區(qū)域擴(kuò)增顯示為紅色塊,而染色體區(qū)域缺失顯示為藍(lán)色塊。
下圖為inferCNV最終產(chǎn)生的去噪后的熱圖。熱圖展示每個(gè)細(xì)胞在各個(gè)染色體區(qū)域的相對(duì)表達(dá)強(qiáng)度,上方熱圖代表參考細(xì)胞的展示結(jié)果,下方熱圖代表目標(biāo)細(xì)胞的展示結(jié)果。圖中每一行表示一個(gè)細(xì)胞,每一列表示一個(gè)基因。熱圖左邊第一個(gè)圖注代表聚類數(shù)目,只有一個(gè)時(shí)表示沒(méi)有聚類,左邊第二個(gè)圖注代表細(xì)胞類型,上方圖注為對(duì)應(yīng)排列的染色體。紅色表示CNV 擴(kuò)增,藍(lán)色表示CNV 缺失,顏色越深代表CNV變異越明顯。
以上為inferCNV分析展示一二,其實(shí)結(jié)果中還有很多數(shù)據(jù)信息,比如我們可以提取inferCNV分析結(jié)果計(jì)算CNV score, 用箱型圖或者小提琴圖畫不同組或者細(xì)胞中的cnv結(jié)果,用于比較不同的細(xì)胞群或者不同的樣本的CNV的差異,以識(shí)別到可能的惡性細(xì)胞類型。
下圖中彩色組別為目標(biāo)細(xì)胞組,白色組別為參考細(xì)胞組?梢钥吹絧latelets組明顯高于其它組別。
以上為本次單細(xì)胞測(cè)序高級(jí)分析inferCNV分析的結(jié)果,其他高級(jí)分析且聽下回分解。