單細(xì)胞檢測技術(shù)的發(fā)展為我們理解復(fù)雜生命體中細(xì)胞的組成與各自功能及變化過程提供了強(qiáng)有力的工具;趩渭(xì)胞基因表達(dá)譜數(shù)據(jù),我們可以窺探發(fā)育過程中細(xì)胞內(nèi)的調(diào)控變化,發(fā)現(xiàn)腫瘤微環(huán)境中的各類細(xì)胞及它們的細(xì)胞間交流,理解器官組織中復(fù)雜多樣的細(xì)胞類型,F(xiàn)有單細(xì)胞研究是一個(gè)從整體到個(gè)體,再由個(gè)體特征重建整體的過程。在這個(gè)過程中,有一些非常有意思的問題是我們希望通過單細(xì)胞數(shù)據(jù)加以理解的,比如,某個(gè)組織中,某類細(xì)胞的發(fā)育生成過程;在不同條件下,細(xì)胞的改變過程和命運(yùn)等等。因此,我們需要通過特定的分析手段實(shí)現(xiàn)對數(shù)據(jù)的分類和還原,并通過數(shù)據(jù)來勾畫出細(xì)胞間的變化過程。在這樣的背景下,擬時(shí)間序列分析(Pseudotime分析)為我們提供了來解決該問題的工具。
擬時(shí)間序列分析(Pseudotime分析)的字面意思是通過構(gòu)建細(xì)胞間的變化軌跡來重塑細(xì)胞隨著時(shí)間的變化過程。從具體的分類分析和復(fù)雜程度來說,可以分為細(xì)胞軌跡分析和細(xì)胞譜系分析。
細(xì)胞軌跡分析指的是簡單模型的細(xì)胞變化軌跡分析,通常指的是細(xì)胞沿著某個(gè)過程有特定化的變化終點(diǎn),軌跡具有簡單樹狀結(jié)構(gòu),一端是“根”,另一端是“葉”;細(xì)胞譜系分析通常指的是某類祖源細(xì)胞,在特定條件下,有多個(gè)發(fā)育軌跡和命運(yùn),變化過程類似復(fù)雜樹狀分支變化過程。因此,簡單細(xì)胞軌跡分析和細(xì)胞譜系分析原理上類似,復(fù)雜程度有所區(qū)別,當(dāng)然,基于此的分析手法和方式也會(huì)有所不同。
近期單細(xì)胞檢測技術(shù)的發(fā)展也激起了基于單細(xì)胞數(shù)據(jù)分析技術(shù)的爆發(fā)。從現(xiàn)有發(fā)表研究來看,已有不同類型的分析方法用于擬時(shí)間序列分析。我們對現(xiàn)有常用的分析策略整理如下圖:
圖1 單細(xì)胞擬時(shí)間序列分析不同策略與流程
以下我們以Monocle軟件的擬時(shí)間分析為例,以簡單模型來了解下通過該分析我們能拿到什么樣的結(jié)果。
擬時(shí)間序列分析包括基因選擇,數(shù)據(jù)降維和在擬時(shí)間內(nèi)排列細(xì)胞三個(gè)基本步驟:
1.選擇基因
推斷單細(xì)胞軌跡是一個(gè)機(jī)器學(xué)習(xí)問題。第一步是選擇機(jī)器學(xué)習(xí)方法輸入的基因。這叫做特征選擇,它對軌跡的形狀有很大的影響。算法通過檢查這些基因在細(xì)胞群中的表達(dá)模式來對細(xì)胞進(jìn)行排序。尋找以“有趣”即不只是嘈雜方式變化的基因,并利用這些基因來構(gòu)造數(shù)據(jù)。這些基因?qū)a(chǎn)生一個(gè)健壯、準(zhǔn)確和具有生物學(xué)意義的軌跡。
2.數(shù)據(jù)降維
一旦細(xì)胞有序排列,我們就可以在降維空間中可視化軌跡,所以首先選擇用于細(xì)胞排序的基因,然后使用反向圖嵌入算法對數(shù)據(jù)進(jìn)行降維。
3.在擬時(shí)間內(nèi)排列細(xì)胞
通過將表達(dá)數(shù)據(jù)投射到更低的維度空間,通過機(jī)器學(xué)習(xí)描述細(xì)胞如何從一種狀態(tài)過渡到另一種狀態(tài)的軌跡。假設(shè)軌跡具有樹狀結(jié)構(gòu),一端是“根”,另一端是“葉”。盡可能地將最佳樹與數(shù)據(jù)匹配起來。這項(xiàng)任務(wù)被稱為“歧管學(xué)習(xí)”,在生物過程的開始階段,細(xì)胞從根部開始,沿著主干前進(jìn),直到到達(dá)第一個(gè)分支如果有的話。然后,細(xì)胞必須選擇一條路徑,沿著樹走得越來越遠(yuǎn),直到到達(dá)一片葉子。一個(gè)細(xì)胞的偽時(shí)間值是它回到根的距離。
通過該過程,我們就能得到以不同分類細(xì)胞為分類的細(xì)胞軌跡圖:
圖2 細(xì)胞軌跡圖
從上述的軌跡圖中,我們基本可以把這些細(xì)胞的軌跡途徑分為5個(gè)不同的階段(State),因此,可以用階段(State)對軌跡圖進(jìn)行繪制,以明確軌跡過程階段:
圖3 細(xì)胞軌跡圖(按階段分類)
當(dāng)然,通過以上的分析結(jié)果,我們無法判斷出來軌跡的開始,因此無法確定軌跡路線。所以,我們需要結(jié)合已有認(rèn)知,通過函數(shù)識別包含時(shí)間為零的大多數(shù)細(xì)胞的狀態(tài),繪制擬時(shí)間軌跡圖:
圖4 擬時(shí)間軌跡圖
得到上述擬時(shí)間軌跡圖后,我們就可以根據(jù)不同的階段分類,分別進(jìn)行分類繪制,得到以下結(jié)果:
圖5 State分類細(xì)胞軌跡圖
有了基本軌跡圖之后,我們可以用細(xì)胞差異基因排序得到的軌跡進(jìn)行驗(yàn)證。可以看到,差異基因排序產(chǎn)生的軌跡與以非監(jiān)督方法得到的軌跡非常相似,但它更“干凈一些”。
圖6 差異基因軌跡圖及非監(jiān)督聚類軌跡圖
接下來,根據(jù)不同細(xì)胞狀態(tài),把不同的基因沿著不同的State分類進(jìn)行作圖,以展示基因變化過程。
圖7差異基因各 State 表達(dá)散點(diǎn)圖
此外,根據(jù)細(xì)胞類型分類,我們也可以將差異基因沿著擬時(shí)間軌跡繪制不同類型細(xì)胞基因表達(dá)散點(diǎn)圖:
圖8差異基因擬時(shí)間表達(dá)軌跡圖
最后,根據(jù)擬時(shí)間序列軌跡,我們把特征差異基因表達(dá)變化進(jìn)行聚類,以熱圖形式展示基因的變化過程:
圖9 差異基因聚類熱圖
因此,通過擬時(shí)間序列分析,我們可實(shí)現(xiàn)構(gòu)建細(xì)胞變化軌跡途徑,并能找到特征差異基因的軌跡變化過程,這將為我們深入理解不同基因在某個(gè)細(xì)胞變化過程中的重要調(diào)控作用提供依據(jù)。
以上擬時(shí)間序列分析結(jié)果圖由上海生物芯片有限公公司生物信息學(xué)專家獨(dú)立完成,如有相關(guān)需求,請聯(lián)系上海生物芯片有限公司服務(wù)平臺(tái)。