在过去五年里,单细胞检测技术取得了显著进展,能够在单个实验中高效监测数千个细胞的基因与蛋白质表达、遗传及表观遗传变化。随着技术进步和测序成本下降,数据集规模迅速扩大,分析这些单细胞实验产生的丰富信息成为当前的主要挑战。以下简要介绍了分析方法,帮助理解单细胞数据在已发表文献中的常见呈现方式。

单细胞分析的核心技术是条形码技术,它以低成本实现大规模并行处理。在逆转录过程中,条形码被整合入RNA分子以区分单个细胞。数据分析的初步步骤是构建数据矩阵,CellRanger是针对10x Genomics平台数据最常用的工具,涵盖测序数据拆分、比对、注释和定量等方面。还有UMI tools、zUMIs、kallisto、STAR和STARsolo等可选工具。

质控环节包括对每个条形码的计数、基因数和线粒体基因比例的评估。低基因数和高线粒体比例通常表明细胞质量不佳,但也有些细胞如肾脏细胞天然富含线粒体。异常高的reads和基因数可能指示双细胞现象,可用DoubletDecon、Scruble和DoubletFinder等工具进行检测。

实用指南:快速上手单细胞测序数据分析入门

控制环境RNA污染同样关键, SoupX和CellBender工具可用于此目的。

单细胞数据标准化方法多样,常用的是将数据标准化为每百万计数。Scran和seurat是流行的归一化方法之一。数据归一化后,进行对数变换,并通过regress out排除细胞周期变异的影响。

数据集通常需要批校正和数据集成。Seurat和Scanorama是常用的整合方法,Harmony也日益成为主流。

可视化首先涉及特征选择,保留提供关键信息的基因信息的基因子集。PCA和t-SNE等降维方法将数据映射至低维空间以便观察。UMAP因其快速和高效捕捉数据结构而受到青睐。

基于基因表达相似性的细胞聚类是分析的直接结果,Louvain算法和Leiden算法是常用的聚类方法。亚聚类有助于更精细的细胞类型划分。

细胞组分变化与疾病状态密切相关,MuSiC等工具可推断组织细胞类型组成。轨迹分析则捕捉细胞状态转变的动态过程,Monocle和RNA velocity等工具提供了新的视角。

差异表达分析关注未经校正的数据集,Seurat和MAST等模型可进行此类分析。配体受体分析则揭示了细胞簇间的相互作用。

近年来,大量人类和小鼠肾脏数据集被产出,可通过GEO下载。这些数据集为人类细胞图谱和肾脏精准医学项目提供了重要参考。肾脏样本和体外分化的肾类器官分析工具如KIT和VisCello等也日益成熟。

目前,肾脏疾病分类仍基于传统描述,无法精确捕捉分子机制。单细胞技术为疾病分子分型和靶标识别提供了新途径。