一、引言

 

   单细胞测序技术的出现,使得在单个细胞精度上解析转录组图谱成为可能。与传统的 bulk 测序不同,单细胞测序能够揭示组织中细胞的异质性,识别稀有细胞类型,并重建细胞发育的动态轨迹。在单细胞测序数据分析流程中,细胞分群(Clustering)是最为核心和基础的环节之一。其目标是将转录谱相似的细胞划分为同一亚群,从而将复杂的细胞混合物解构为具有生物学意义的离散群体,为后续的差异表达分析和功能注释奠定基础。

 二、细胞分群的理论基础

 

   细胞分群的本质是基于高维转录组数据的相似性度量。其基本假设是:具有相同或相似功能状态与类型的细胞,其基因表达模式具有高度的相关性。

 2.1 特征选择
   原始的单细胞表达矩阵维度极高(通常超过两万个基因),其中包含大量无信息或噪音基因(如在所有细胞中均不表达或均一表达的基因)。因此,在进行聚类之前,必须进行特征选择。通常采用高变基因作为输入特征,这些基因在细胞间的表达变异最大,包含了区分不同细胞类型的主要生物学信息。

 2.2 降维处理
   由于“维度灾难”的影响,在高维空间直接进行聚类效果往往不佳且计算开销巨大。因此,需要先对数据降维。主成分分析是最常用的线性降维方法,它将高变基因的表达信息压缩为若干个主成分。研究者通常选择前若干维显著的主成分(通常根据拐点图或方差百分比确定)作为后续聚类的输入,这一步既能去除噪音,又能保留主要的生物学差异。

   

 三、基于图的聚类算法

 

   在单细胞测序数据分析领域,直接将传统聚类算法(如 K-means)应用于主成分空间往往难以处理非球形的细胞群分布以及海量的数据点。目前,基于图的聚类方法,特别是 Louvain 和 Leiden 算法,已成为事实上的行业标准。

 3.1 共享最近邻图的构建
   该策略首先在主成分空间中,基于欧几里得距离计算每个细胞的 K 个最近邻。基于这种邻接关系,构建一个加权图。图中每个节点代表一个细胞,节点之间的边代表细胞间的相似性。为了提高对噪音的鲁棒性,通常进一步计算共享最近邻,即如果两个细胞不仅互为近邻,且拥有许多共同的邻居细胞,则赋予它们更高的连接权重。

 3.2 模块度优化
   构建图之后,聚类问题转化为图划分问题。Louvain 算法通过迭代优化“模块度”指标来寻找图的最佳划分。模块度衡量的是划分后群落内部的边密度与随机网络下的预期边密度之间的差异。最大化模块度意味着找到了群落内部连接紧密、群落之间连接稀疏的划分方案。

 3.3 Leiden 算法的改进
   后续发展的 Leiden 算法进一步解决了 Louvain 算法可能产生不连通群落的问题。Leiden 算法保证了划分出的群落内部在拓扑结构上是连通的,从而得到更精细、更具生物学意义的聚类结果,且计算速度更快。

   

 四、聚类分辨率的调控与聚类层次

 

   在基于图的聚类算法中,一个关键参数是分辨率

 4.1 分辨率的生物学意义
   分辨率参数直接控制聚类结果中群落的数量与粒度。较低的分辨率会将细胞划分为较少的、大类别的群体(如区分 T 细胞与 B 细胞);较高的分辨率则能在大的类别内部进一步划分出稀有亚群或不同功能状态(如区分初始 T 细胞与效应 T 细胞)。

 4.2 多尺度分析策略
   由于生物组织的结构通常是层级性的(如“免疫细胞”包含“淋巴细胞”,“淋巴细胞”包含“T 细胞”),单一分辨率往往无法完全揭示这一结构。因此,实际分析中常采用多分辨率探索策略。研究者会从低分辨率开始,获得数据集的宏观概览,然后对感兴趣的特定大类细胞进行提取(Subsetting),并在该子集上重新进行高分辨率聚类,以挖掘更深层的异质性。

 五、聚类结果的评估与验证

   获得聚类划分后,必须对其进行严谨的评估,以确保结果反映了真实的生物学差异而非技术噪音。

 5.1 内部验证指标
   利用轮廓系数或 Davies-Bouldin 指数等指标,可以量化聚类结果的紧密度与分离度。虽然这些指标在单细胞高维数据中的应用存在局限性,但仍可作为初步参考。

 5.2 生物学验证
   这是最关键的验证步骤。通过识别每个聚类群落的标记基因,并与已有的生物学知识库进行比对。例如,如果一个聚类群高表达 CD3D, CD3E 等基因,且不表达 MS4A1,则该群落可被验证为 T 细胞。如果某个聚类群无法找到任何已知的标记基因,则可能代表一种新型细胞状态,或者是由批次效应等技术因素导致的假象。

 5.3 数据分布的验证
   通过 t-SNE 或 UMAP 等非线性降维算法将数据可视化。虽然 UMAP 常用于最终展示,但需要注意的是,它主要是为了可视化而优化数据的局部结构,不应直接用于聚类。一个良好的聚类结果,在可视化图上应表现为同群落的细胞聚集紧密,不同群落之间有明显的间隔。

 六、结语

 

   细胞分群是连接单细胞测序原始数据与生物学发现的桥梁。当前基于图聚类的算法结合主成分降维策略,能够高效、准确地解析复杂组织中的细胞组成。在实际应用中,需根据样本的复杂程度和研究目的,灵活调整特征选择策略与聚类分辨率。未来,随着多模态单细胞技术的发展,整合染色质可及性、蛋白质表达等多维信息的聚类算法,将进一步推动对细胞状态与功能的精准解析。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐