《Nature Methods》是專門用來對生命科學研究領域具有顯著性意義的新方法和研究技術改進的經典雜志。單細胞轉錄組測序是2019年不折不扣的熱點領域,截至2019年9月,Nature Methods總共發(fā)表了10篇關于單細胞轉錄組測序相關的研究報道。本期,小編和大家一起分享這些重要的研究成果。
1.用于評估單細胞RNA-seq數據批次效應的工具
來自德國計算生物學研究所的研究人員發(fā)表了“A test metric for assessing single-cell RNA-seq batch correction”的研究報道。該研究開發(fā)了一個強大、靈敏度高的基于k-nearest-neighbor批次效應評價工具(kBET; https://github.com/theislab/kBET )。研究人員使用kBET來評估常用的批次回歸和標準化方法,并量化其在保留生物變異性的同時去除批次效應的程度。這對未來的數據集成工作(如Human Cell Atlas計劃)具有重要意義。
圖1 批次類型和kBET
2.用于改善scRNA-seq數據可視化的基于快速內嵌的t-SNE工具
t-SNE是一種常見的scRNA-seq數據可視化工具,但對于大數據背景時適用有限。來自耶魯大學數據應用中心的研究人員發(fā)表了“Fast interpolation-based t-SNE for improved visualization of single-cell RNA-seq data”的研究報道。該研究大大加速了t-SNE分析速度,避免了對數據下采樣的需求,從而允許稀有細胞群的可視化。此外,研究人員基于一維t-SNE實現了針對scRNA-seq的熱圖樣式可視化,以同時可視化數千個基因的表達模式。
軟件在線鏈接:https://github.com/KlugerLab/FIt-SNE和https://github.com/KlugerLab/t-SNE-Heatmaps。
3.使用單細胞數據譜對bulk基因組數據的細胞組成分析
來自以色列特拉維夫大學的研究人員發(fā)表了“Cell composition analysis of bulk genomics using single-cell data”的研究。該研究引入了一種基于反卷積算法的細胞群體圖譜(CPM)工具,其利用參考scRNA-seq譜來推斷大量轉錄組數據('scBio'CRAN R-package)中細胞類型和狀態(tài)的組成。通過對流感病毒感染小鼠的肺個體差異的分析揭示,細胞豐度和臨床癥狀之間的關系是細胞狀態(tài)特異性的,其沿著細胞活化狀態(tài)的連續(xù)性逐漸變化。在隨后的實驗中證實了這種逐漸變化,并且通過數學模型進一步解釋了其中臨床結果與激活過程中的細胞狀態(tài)動態(tài)相關。該結果證明了CPM在重建異質組織內細胞狀態(tài)的連續(xù)譜中的能力。
圖2 CPM算法流程模式圖
4.使用深度遞歸學習從單細胞轉錄組學中對細胞類型組成進行可擴展分析
從單細胞組學數據中識別細胞類型是單細胞研究的重中之重。來自加州大學藥物化學系的研究人員發(fā)表題為“Scalable analysis of cell-type composition from single-cell transcriptomics using deep recurrent learning”的研究,提出了一種稱為scScope的,可擴展的,基于深度學習的方法。該方法可以從數百萬個嘈雜的單細胞基因表達譜中準確、快速地鑒定細胞類型組成。
圖3 scScope分析框架及模擬數據集的表現
5.評估單細胞轉錄組學的關聯(lián)度量
由于scRNA-seq獨特數據特性,從單細胞轉錄組學中鑒定基因-基因和細胞-細胞關系的最佳關聯(lián)方法仍不清楚。來自哥倫比亞大學邁克爾史密斯實驗室的研究人員發(fā)表題為“Evaluating measures of association for single-cell transcriptomics”的研究。該研究對17種關聯(lián)度量算法進行了大規(guī)模的評估,評價了它們重建細胞網絡的能力,相同類型的聚類細胞以及將細胞類型特異性轉錄與疾病聯(lián)系起來的能力。該研究表明,計算組成數據向量之間比例關系的比例度量方法,來描述兩個變量之間的相關性是跨數據集和測試的最佳表現方法。該分析為單細胞轉錄組學中的基因和細胞網絡分析提供了指導。
圖4 不同關聯(lián)方法對已知細胞類型聚類準確性結果
6. 使用混合對照實驗建立單細胞RNA測序分析標準
在單細胞轉錄組研究領域,由于缺乏標準基準數據集使研究人員難以系統(tǒng)地比較許多可用方法的性能。來自沃爾特和伊麗莎霍爾醫(yī)學研究所的研究人員發(fā)表題為“Benchmarking single cell RNA-sequencing analysis pipelines using mixture control experiments”的研究。該研究通過對單細胞和細胞或RNA的混合物產生了一個多達五種不同的癌細胞系的“假細胞”庫。使用基于液滴和基于板的scRNA-seq方案,生成14個數據集。隨后,該研究比較了3,913種數據分析方法組合,用于從歸一化到聚類,軌跡分析和數據整合,提出適合不同類型數據的分析方法。該研究的數據和分析提供了一個用于對最常見的scRNA-seq分析步驟進行基準測試的全面框架。
圖5 實驗設計思路及標準分析流程
7.MULTI-seq:基于脂質標記的多樣本單細胞RNA測序方法
多樣本標記對于降低單細胞RNA測序成本和鑒定多細胞率等都非常重要。來自加州大學舊金山分校藥物化學系的研究人員發(fā)表“MULTI-seq: sample multiplexing for single-cell RNA sequencing using lipid-tagged indices”的研究。該研究建立了一種稱為MULTI-seq的方法:使用脂質標記indices進行單細胞和單核RNA測序的多樣本標記。MULTI-seq reagents可憑借易進入的質膜對來自任何物種的任何細胞類型或細胞核進行條形碼編碼。該方法涉及最少的樣品處理,從而保持細胞活力和內源基因表達模式。當使用MULTI-seq條形碼對不同樣本的細胞進行標記分類時,可通過雙重鑒定和具有低RNA含量的細胞回收來改善數據質量。
圖6 MULTI-seq設計原理及流程
8.異質單細胞RNA-seq數據集的聯(lián)合分析
單細胞RNA測序數據在實際運用中可能會涉及到不同個體,不同條件和組織間的多樣本比較。為鑒定異質數據集下的特征細胞亞型挖掘,來自哈佛醫(yī)學院生物醫(yī)學信息學系的研究人員發(fā)表題為“Joint analysis of heterogeneous single-cell RNA-seq dataset collections”的研究,開發(fā)了一種稱為Conos的方法。該方法是一種依賴于多個可信樣本間映射來構建連接所有細胞全局圖的方法。該圖能夠識別多樣本或圖集規(guī)模集合中的特征細胞簇和數據集之間的信息關聯(lián)。
圖7 Conos法數據整合原理示意圖及BM樣本結果圖
9.通過單細胞表達相關性分析構建發(fā)育組織的基因表達圖譜
果蠅翼盤已成為發(fā)現關鍵信號通路和對發(fā)育過程理解的基本模型系統(tǒng)。然而,缺乏該組織中基因表達的完整圖譜。來自德國癌癥研究中心的研究人員發(fā)表題為“Gene expression atlas of a developing tissue by single cell expression correlation analysis”的研究。為了獲得翼盤中的基因表達圖譜,研究人員采用單細胞RNA測序(scRNA-seq)并開發(fā)了基于基因表達相關性而非細胞作圖的分析scRNA-seq數據的方法。該方法能夠計算翼盤中所有檢測到的基因的表達圖譜,并發(fā)現具有空間限制表達模式的824個基因。該方法鑒定具有相似表達模式和功能相關性的基因簇。作為概念證明,該研究描述了先前未研究的基因CG5151,并表明它調節(jié)Wnt信號傳導通路。該方法將能夠利用scRNA-seq數據進行發(fā)育過程中產生未分化組織的表達圖譜構建。
圖8 翼盤SPG細胞鑒定及marker基因表達
10.轉換學習用于單細胞轉錄組的數據去噪
單細胞RNA測序(scRNA-seq)數據嘈雜且稀疏。為降低數據噪音,來自賓夕法尼亞大學統(tǒng)計系的研究人員發(fā)表題為“Data denoising with transfer learning in single-cell transcriptomics”的研究。在該研究中,研究人員表明跨數據集的轉換學習顯著提高了數據質量。通過將深度自動編碼器與貝葉斯模型耦合,SAVER-X方法從不同實驗室,不同條件和不同物種的數據中提取可轉移的基因-基因關系,以實現對新的目標數據集進行去噪。
圖9 SAVER-X轉移學習框架
平均每月發(fā)表超過一篇,單細胞轉錄組相關的研究方法在《Nature Methods》的展現足見單細胞轉錄組學的熱門與重要。相信在接下來的時間里,該領域的成果還會持續(xù)上榜。單細胞轉錄組學,任重而道遠,前途也無量。