单细胞转录组是一个飞速发展的领域,可帮助科研人员从一堆细胞(bulk)水平精细到单细胞(single-cell)水平来研究基因的表达状态,从而可以更加精细的刻画科研对象的分子状态(如细胞图谱,表达特征,基因互作,细胞分化,不同细胞之间的互作,转录调控等)。
对于单细胞数据分析而言,如何定义每一类细胞群是整个单细胞分析的基础,也是重中之重。后续的所有分析,都要基于正确的细胞类型进行;如果细胞类型注释错误,这对我们下游的分析结果而言,会导致全部出错。本文整理了比较全面的细胞类型注释的“坑”及对应的解决方案,囊括了单细胞细胞类型注释需要注意的方方面面,希望为scRNA-seq领域的研究者提供一些帮助及支持。
本文将从以下几个方面分别进行详细阐述~
① 什么是细胞类型注释?
② 如何进行细胞类型注释?
③ 自动注释的软件或工具有哪些?
④ 常用的marker数据库有哪些?
⑤ 细胞大群(cluster)和细胞亚群(subcluster)分别如何注释?
⑥ 细胞类型注释后下一步该做什么?
单细胞分析之细胞类型注释
1. 什么是细胞类型注释?
通过测序的技术手段,获得了大约10,000个细胞的RNA-seq数据,我们知道不同的细胞,其RNA-seq数据是不一样的。所以希望弄清楚,这10,000个细胞究竟都是什么细胞。对10,000个细胞一个一个进行注释显然是不现实的。得益于技术的发展,可以一次测得很多细胞的RNA-seq数据,获得每一个细胞身份的过程被称为“细胞类型注释”。
2. 如何进行细胞类型注释?
通常分为:自动细胞注释,手动细胞注释和注释验证【1-3】。
图1 细胞注释workflow
2.1 自动细胞注释(“软件注释”)
自动注释是使用细胞类型注释算法和先验生物学知识来标记细胞或细胞群的有效方法。一般原理是识别单个细胞或细胞群与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号(模式或特征);然后为细胞或细胞群分配相应的标签。
将待注释的单细胞RNA-seq数据与现有的、相似的、经过专业注释的scRNA-seq数据库进行比较,并将标签从参考细胞或细胞群转移到查询中足够相似的细胞或细胞群(称为“基于参考的自动注释”),参考单细胞数据来源于GEO数据库、单细胞表达图谱等。然而,并不是所有的细胞都能容易地分组成簇,尤其是对于动态系统,如发育中的组织或含有基因表达梯度的组织。因此,自动细胞注释主要用于快速识别已知细胞类型并突显未知细胞类型以供进一步探索。
2.2 手动细胞注释(“人工注释”)
尽管自动注释方法非常方便,但需要适当的参考数据库,有时产生的注释结果的置信度并不高,当自动注释结果置信度较低、细胞标签冲突或缺失时,需要进行手动注释,一方面可以检查算法自动注释的结果是否准确,另一方面将算法没注释出来的细胞群通过Marker Gene等方法手动注释出来。虽然手动注释被认为是细胞类型注释的“gold-standard method”,但注释过程是复杂且耗时。
首先,需要知道样本中包含有哪些主要的细胞类型,如:血液样本中有T细胞、B细胞、单核细胞等,方便快速完成初步注释;然后需要有对应组织类型的Marker Gene list,可以通过相关研究领域的文章、Marker数据库获得以及自己通过多年的实验经验积累。也可以通过获得每个细胞群的Marker Gene,结合富集分析获得基因可能的功能来完成注释。注释时会经常碰到一些细胞群同时高表达2个或2个以上的细胞类型标志物,可能需要考虑是不是doublet所带来的影响。
常用的marker数据库:CellMarker, HCA, PanglaoDB, SCSig, EMBL-EBI, MCA, CancerSEA等;并通过基因表达可视化结果来命名,如:热图、小提琴图、箱线图、气泡图等方式查看Marker Gene的表达情况来注释细胞类型。如下图所示,MS4A1, CD79A为B细胞的经典Marker,故可将“特异高表达MS4A1的细胞群cluster”命名为B细胞。
图2 Marker基因FeaturePlot图
2.3 验证
通过上述2种方法已经可以将某种组织类型的细胞图谱完成,但mRNA检测能部分定义细胞类型和功能,对于得到的稀有或者新的细胞类型须经过实验验证(多组学、原位杂交、多重免疫荧光等)。
3. 自动注释的软件或工具有哪些?
软件自动化注释一般是使用软件内置数据集进行注释,操作相对简单。但是准确性会相对稍差,不过可以作为一种很好的辅助注释手段。主要有以下几个软件:
3.1 SingleR
SingleR是一个用于对scRNA-seq/snRNA-seq数据进行细胞类型自动注释的R包【4】。依据已知类型标签的细胞样本作为参考数据集,对测试数据集中的细胞进行标记注释。SingleR通过训练好的已知细胞类型标签的样本作为参考数据集,计算待注释数据集中与参考集相似的细胞进行标记注释;首先计算参考数据集中Marker Gene与待注释细胞基因表达谱Spearman相关性,在细胞类型中只使用可变基因提高了区分细胞亚群的能力,该过程仅使用前一步骤中的top cell types和其中的可变基因反复进行,直到只剩下一种细胞类型。
使用SingleR的最简单方法是使用内置参考对细胞进行注释。singleR自带的7个参考数据集,其中5个是人类数据,2个是小鼠的数据:
(1)BlueprintEncodeData: Blueprint (Martens and Stunnenberg 2013) and Encode (The ENCODE Project Consortium 2012) (人)
(2)DatabaseImmuneCellExpressionData: The Database for Immune Cell Expression (/eQTLs/Epigenomics) (Schmiedel et al. 2018)(人)
(3)HumanPrimaryCellAtlasData: the Human Primary Cell Atlas (Mabbott et al. 2013)(人)
(4)MonacoImmuneData: Monaco Immune Cell Data - GSE107011 (Monaco et al. 2019)(人)
(5)NovershternHematopoieticData:Novershtern Hematopoietic Cell Data - GSE24759(人)
(6)ImmGenData: the murine ImmGen (Heng et al. 2008) (鼠)
(7)MouseRNAseqData: a collection of mouse data sets downloaded from GEO (Benayoun et al. 2019) (鼠)
SingleR注释过程包括以下几个步骤:
1、针对每个单细胞独立进行注释。首先,计算单细胞表达与参考数据集中每个样本的Spearman相关系数,这个相关性分析仅针对参考数据集中的变异基因进行;
2、根据参考数据集中的命名注释,将每个未知细胞的多个相关系数整合,为了防止由于参考样本的异质性而导致错误分类,SingleR使用相关系数的80%作为阈值;
3、SingleR重新运行相关性分析,但仅针对上一步中排名靠前的细胞类型。并且这个分析仅针对囊括的细胞类型之间的变异基因进行。最低相关性值的细胞类型被移除(或者比最高值低0.05以上),然后重复这个步骤,直到只剩下两个细胞类型为止。最后一次运行后,对应于最高值的细胞类型被分配给单个细胞。
图3 SingleR细胞注释原理图
3.2 CellTypist
CellTypist(https://www.celltypist.org/)是一个用于自动注释人类组织中免疫细胞的工具【5】。基于深度学习模型的自动注释方法,该算法发表在Science,算是唯一一篇发表在正刊的单细胞注释算法。与别的自动注释算法不同,CellTypist可以自定义高精度和低精度,也就是说,CellTypist可以直接注释出细胞的亚群。此外,对于不认识的细胞类型,其会选择性注释,不会瞎注释。
它的原理是通过整合来自不同组织的细胞数据,并使用机器学习方法训练模型,实现对细胞类型的准确分类。研究人员收集了来自20个不同组织的细胞数据,并对这些数据进行深度筛选和整合,以获得两个层次的细胞类型信息。然后,他们使用逻辑回归和随机梯度下降学习的方法训练了模型。模型的性能通过精确度、召回率和全局F1分数进行评估,结果显示在高层次和低层次的细胞类型分类上都达到了约0.9的准确性。CellTypist能够识别出不同的细胞亚群,包括T细胞、B细胞、单核巨噬细胞等,此外,它还能够自动注释细胞的详细亚型,提供了对免疫细胞群体的深入了解。
图4 CellTypist细胞注释原理
3.3 CellAssign
CellAssign是一种基于概率图模型的方法,于2019年发表在Nature Methods上【6】。它利用已有的细胞类型Marker基因的先验知识,通过推断细胞类型的概率来将未知数据分配到不同的细胞类型。具体来说,CellAssign将每个细胞表示为一个随机变量,该变量表示细胞属于各细胞类型的概率。同时,它还考虑了批次和样本效应的影响,通过引入协变量来调整这些效应。CellAssign还考虑了基因的表达变异性,并使用原始计数矩阵和负二项分布来建模。通过最大化后验概率估计,CellAssign可以推断每个细胞属于各个细胞类型的概率,并将细胞分配到具体的细胞类型中。
图5 CellAssign细胞注释原理
3.4 scCATCH
scCATCH全称是single cell Cluster-based Annotation Toolkit for Cellular Heterogeneity,是一个用于实现单细胞转录组聚类结果进行注释的工具;由浙江大学研究团队开发,于在2020年发表在iScience上,表明在6种不同组织的测试数据中的平均标注准确率为83%【7】。
图6 scCATCH细胞注释原理
特点:
(1)CellMatch包含353种细胞类型和686种亚型,与184种组织类型,20,792种细胞特异性标记基因以及2,097个人类和小鼠参考文献;
(2)scCATCH包括两个函数“findmarkergenes”和“scCATCH”,以实现对每个已识别集群的自动注释。
(3)scCATCH可用于注释癌组织的scRNA-seq数据。
(4)scCATCH可以处理包含超过10,000个细胞和15个以上clusters的大型单细胞转录组数据集。
Note:(1)只能注释人或小鼠;(2)在数据库中,人的组织和肿瘤以及小鼠的正常组织的参比资源很多,小鼠的肿瘤组织较少。
4. 常用的marker数据库有哪些?
人工注释常用的marker数据库有【8-9】:
cellmarker2.0(http://117.50.127.228/CellMarker/CellMarkerBrowse.jsp)
PanglaoDB(https://panglaodb.se/)
CancerSEA(http://biocc.hrbmu.edu.cn/CancerSEA/)
HCA(https://www.humancellatlas.org/)
MCA(https://bis.zju.edu.cn/MCA/atlas2.html)
KIT(https://humphreyslab.com/SingleCell/)
“人工注释”比较考验研究者的相关背景和精力,优点在于准确性相对较好。当然,除了数据库已收录的marker list外,也可以基于先验背景知识和文献来收集marker,用于细胞类型鉴定~
5. 细胞大群(cluster)和细胞亚群(subcluster)分别如何注释?
5.1 细胞大群注释
结合“自动细胞注释(软件注释)”和“手动注释(人工注释)”对所有细胞群cluster进行重命名,以获得最终的celltype。
5.2 细胞亚群注释(subcluster)
基于pan-marker鉴定完细胞大类后,接下来需要做细胞亚类鉴定。细胞亚群定义都是单细胞鉴定过程中最为耗时和困难的步骤,细胞亚群鉴定需要使用大量基因进行反复尝试。
亚群鉴定主要包含两个情况:
情况1:在所有细胞聚类结果中,往往会有多个cluster属同种细胞,如B细胞包含了3个cluster,T细胞6个cluster,可以选择在所有细胞聚类基础上对每个cluster进行细胞注释。
情况2:在所有细胞聚类基础上不做细胞亚类注释,只是做大类注释(celltype),后续针对目标细胞进行sub_cluster分析,再对sub_cluster后的结果做亚群聚类。如:T细胞按照功能可以分为Navie、Tcm、Tem、Temra;按照状态可分为增殖T细胞、激活T细胞、耗竭T细胞;按照表面抗体可以分为CD4 T细胞和CD8 T细胞等,每种细胞亚型均对应不同基因表达模式,在实际鉴定过程中各种marker基因在不同cluster中均会有不同程度的表达,这导致细胞亚型鉴定难以像细胞大类鉴定一样清晰,因此需反复尝试。
5.3 基于CNV区分细胞恶性
在实际取样时,获取的肿瘤组织或多或少会混杂一些癌旁细胞,癌旁组织中可能也会有肿瘤细胞的存在,由于肿瘤细胞是正常细胞的恶性状态,通过已有marker基因不一定能很好地区分恶性和非恶性细胞,所以可以对单细胞转录组数据进行CNV分析(inferCNV 或copyKAT),通过拷贝数变异进行二者的区分。
inferCNV可以分析体细胞大规模染色体拷贝数变化(copy number alterations, CNA)。分析原理:以一组"正常"细胞作为参考,分析肿瘤基因组上各个位置的基因表达量强度变化。通过热图的形式展示每条染色体上的基因相对表达量,相对于正常细胞,肿瘤基因组总会过表达或者低表达。
图7 inferCNV分析结果
5.4 未知细胞如何定义
细胞定义时,会出现某个cluster不表达任何已知marker的情况,针对这种未知cluster,可以采用如下方法进行细胞定义:
(1) 直接将未定义cluster定义为Novel细胞;
(2) 从未定义cluster中提取出只在此cluster中特异性、高表达的基因(假设为基因A),将未定义cluster定义为A+ 细胞;或者在未定义cluster中不表达,但在其他同属于同一大类细胞的cluster中表达的基因(假设为基因B),将未定义cluster定义为B- 细胞;
(3) 考虑看此cluster与其他已知cluster在UMAP上的位置关系,彼此间是否出现连续性连接,从而辅助判断细胞类型。
6. 细胞类型注释后下一步该做什么?
(1)计算不同组织类型、不同疾病发育阶段、不同年龄等多维度的细胞类型占比;
(2)特征基因的可视化展示;
(3)比较感兴趣细胞群间的差异基因及功能分析;
(4)分析感兴趣细胞群之间的细胞相互作用;
(5)分析感兴趣细胞亚群之间或者可能具有细胞分化关系的细胞类型(celltype)之间的轨迹分析;
(6)比较感兴趣细胞群间的转录因子表达;
(7)多重免疫荧光 (mIF) 验证新发现细胞类型或细胞亚群的存在;
(8)湿实验进一步验证目标基因的调控机理。
图8 下游实验
参考文献
业务咨询
尊龙凯时生物成立于2013年,作为深耕细胞和基因治疗核心领域的高新技术企业,专注于为细胞和基因治疗的基础研究提供基因治疗载体研制、基因功能研究、药物靶点及药效研究等CRO服务;为细胞与基因治疗药物的研发提供工艺开发及测试、IND-CMC药学研究、临床样品及商业化产品的GMP生产等CDMO服务;为再生医学及抗衰领域提供细胞制备、重组蛋白/外泌体等细胞衍生物生产、细胞存储等技术服务。致力于推动细胞和基因治疗及相关健康产业的技术开发及转化应用,造福生命健康。