English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > clustree算法助力單細胞聚類結(jié)果更有生物學(xué)意義

clustree算法助力單細胞聚類結(jié)果更有生物學(xué)意義

瀏覽次數(shù):1141 發(fā)布日期:2023-3-15  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負

聚類算法廣泛用于分析大型數(shù)據(jù)集,以將具有相似屬性的個體聚類在一起。這在單細胞測序結(jié)果分析中尤為關(guān)鍵。合適的細胞聚類分群結(jié)果有助于細胞類型鑒定等下游數(shù)據(jù)分析工作。然而,聚類的算法多種多樣,且算法中參數(shù)的改變都會影響最終的細胞分群結(jié)果。因此,在細胞聚類分析時需要方法幫助研究者找到具有生物學(xué)意義的聚類分群結(jié)果。這里介紹一種名為“clustree”的算法,以樹狀圖形式展示不同聚類分辨率對細胞聚類分群的影響,并能顯示細胞的移動軌跡,從而指導(dǎo)研究者們確定合適的分辨率參數(shù),獲得有生物學(xué)意義的細胞分群結(jié)果。

 

01

單細胞轉(zhuǎn)錄組clustree結(jié)果解讀

單細胞轉(zhuǎn)錄組測序可以幫助研究者獲得組織或體液中單個細胞的基因表達模式。而聚類算法可以將細胞按照表達模式的相似性進行聚類分群,不同細胞群之間的基因表達差異可以用于推斷細胞的身份和功能。然而,通常情況下研究者并不知道細胞類型的數(shù)量,若分辨率較低,會導(dǎo)致一個細胞群中包含多種細胞類型,而分辨率過高又會導(dǎo)致過分群的情況出現(xiàn)。因此,決定使用哪種分辨率參數(shù)是單細胞轉(zhuǎn)錄組整個分析流程的關(guān)鍵。

用10x Genomics公司提供的PBMC單細胞轉(zhuǎn)錄組測序結(jié)果(包含2700個外周血單核細胞,包含一系列免疫細胞類型)進行Seurat分析,并用clustree展示分辨率從0到5的聚類樹結(jié)果,如圖1A所示。在聚類樹結(jié)果中,每行代表在某個分辨率下的細胞聚類結(jié)果,而分辨率大小則用每個點的顏色表示。點的大小代表該cluster包含的細胞數(shù)目,細胞越多點越大。當(dāng)分辨率增加時,細胞會按照箭頭方向移動到新的cluster里,箭頭的顏色代表沿箭頭移動的細胞數(shù)目,通過圖注可知箭頭越接近黃色,則說明箭頭包含的細胞數(shù)越多。此外,箭頭具有不同的透明度,代表箭頭中的細胞數(shù)與其指向cluster里細胞數(shù)的比值。比值越大,說明這個箭頭對其指向cluster的重要性更高,箭頭的透明度越小。而比值越小,說明這個箭頭對其指向cluster的重要性更低,箭頭的透明度越大,同時可以設(shè)置比值的閾值,隱藏低于閾值的箭頭。

Fig.1 2700個PBMC細胞單細胞轉(zhuǎn)錄組數(shù)據(jù)集的聚類樹

(A)分辨率從0-1的Seurat聚類結(jié)果,0.1時得到4個主要分支,0.4時分支繼續(xù)分裂。(B)分辨率從0到5,分辨率為5時看到很多透明箭頭,說明此時的cluster結(jié)果不穩(wěn)定。

 

02

1. 如何利用clustree結(jié)果選擇合適的分辨率

通常情況下,為了決定合適的聚類分辨率,可使用以下兩種策略:1.選擇透明箭頭出現(xiàn)較少的分辨率聚類結(jié)果

聚類算法得到的cluster數(shù)目隨分辨率增加而增多,但當(dāng)?shù)玫降腸luster數(shù)目多于單細胞轉(zhuǎn)錄組結(jié)果實際存在的聚類數(shù)時,新的cluster會從已有的cluster中形成,許多cluster會在不同的分支中切換,出現(xiàn)較多的透明箭頭,不穩(wěn)定的cluster也可能出現(xiàn)后消失。通過查看哪些cluster是穩(wěn)定的以及出現(xiàn)透明箭頭的區(qū)域,我們可以推斷出聚類樹的哪些區(qū)域可能是真實的cluster或者是過度分群造成的。如圖1B所示,當(dāng)算法被迫產(chǎn)生比該數(shù)據(jù)集中可能真正存在的更多的cluster時,隨著過度聚類的發(fā)生,可以看到更多的透明箭頭和由多個上一層cluster形成的新cluster。這些區(qū)域是不穩(wěn)定的,且這些新生成的cluster不太可能代表數(shù)據(jù)集中的真實cluster。

2. 基于marker基因表達選擇有生物學(xué)意義的分辨率聚類結(jié)果

基于先驗知識可選用已知的marker基因來識別特定cluster的細胞類型,將基因表達信息疊加到聚類樹上,獲得新的聚類樹,可指示何時形成包含純細胞群的cluster。如圖2所示,該聚類樹是在圖1A結(jié)果基礎(chǔ)上增加marker基因的表達信息。CD19是B細胞的marker基因,在最右側(cè)的分支中高表達。CD14是單核細胞的marker之一,其表達隨著分辨率增大在某一個分支中高表達,暗示這條分支的cluster可能是這種細胞的純?nèi)后w。CD3D是T細胞的marker,在最左側(cè)的分支中都有表達,當(dāng)分辨率增加到0.7時出現(xiàn)兩條細分支,且這兩條分支中CCR7的表達存在明顯差異,從而將記憶T細胞和初始T細胞區(qū)分開。通過添加已知的細胞類型marker基因,可以確定這些cluster是否具有生物學(xué)意義。

 

Fig.2 2700個PBMC細胞單細胞轉(zhuǎn)錄組數(shù)據(jù)集的聚類樹,增添已知marker基因表達信息

(A)CD19,識別B細胞;(B)CD14,顯示單核細胞;(C)CD3D,T細胞marker基因;(D)CCR7,區(qū)分記憶和初始T細胞。

 

03

結(jié)語

單細胞轉(zhuǎn)錄組測序結(jié)果通常數(shù)據(jù)龐大且存在背景噪音,包含未知數(shù)量的細胞類型和聚類數(shù)。因此,clustree算法在指導(dǎo)單細胞轉(zhuǎn)錄組數(shù)據(jù)集聚類分群時的重要性不言而喻。該算法以聚類樹的方式提供了包含多種信息的可視化結(jié)果,可以有效地評估cluster可靠性并鑒定其類型,為單細胞轉(zhuǎn)錄組的下游分析奠定基礎(chǔ)。

參考文獻:Zappia, Luke, and Alicia Oshlack.“Clustering trees: a visualization for evaluating clusterings at multiple resolutions.”GigaSciencevol. 7,7 (2018): giy083.

來源:上海生物芯片有限公司
聯(lián)系電話:400-100-2131
E-mail:marketing@shbiochip.com

標(biāo)簽: 算法 單細胞 生物學(xué)
用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com