Bioinformatics mining of ferroptosis-related biomarkers and development of a diagnostic model in primary Sjögren's syndrome
-
摘要:目的
基于多种生物信息学手段识别原发性干燥综合征(pSS)中与铁死亡相关的基因并构建诊断模型, 为pSS的诊断和治疗提供潜在靶点。
方法从GEO数据库中获得pSS的基因表达矩阵,应用R软件limma包识别出差异表达基因(DEGs)。通过加权基因共表达网络分析(WGCNA)识别pSS中最相关的模块化基因,从FerrDb数据库获得铁死亡相关基因集,将pSS中最相关的模块基因与DEGs和铁死亡相关基因取交集识别出关键基因。通过2种机器学习算法去除冗余基因并构建由关键基因组成的诊断模型,在3个独立数据集中验证诊断模型的准确性,基于免疫浸润分析揭示关键基因与免疫细胞的关联,应用Seurat软件包分析单细胞数据集。
结果差异基因分析共获得265个DEGs, WGCNA获得1个与pSS最为相关的模块(r=0.44, P < 0.01), 从中识别8个铁死亡相关基因,去除冗余基因后,最终获得3个与铁死亡相关的关键基因(PARP9、PARP12、PARP14)。基于3个关键基因建立诊断模型,该模型在3个独立数据集中均表现出优秀的诊断效能(受试者工作特征曲线中,曲线下面积分别为0.848、0.853、1.000)。免疫浸润分析和单细胞数据集分析结果提示, 3个关键基因与树突状细胞、巨噬细胞和T细胞或B细胞存在显著关联。
结论本研究基于生物信息学手段识别出pSS中与铁死亡相关的3个关键基因(PARP9、PARP12、PARP14)并构建pSS诊断模型,为pSS的诊断提供了新的潜在工具。
Abstract:ObjectiveTo identify iron death-related genes in primary Sjögren's syndrome (pSS) through various bioinformatics methods, providing potential targets for the diagnosis and treatment of pSS.
MethodsGene expression matrix of pSS was obtained from the GEO database, and differentially expressed genes (DEGs) were identified using the "limma" package by R software. Weighted gene co-expression network analysis (WGCNA) was used to identify the most relevant modular genes in pSS. Iron death-related gene sets were obtained from the FerrDb database, and key genes were identified by intersecting the most relevant module genes with DEGs and iron death-related genes. Two machine learning algorithms were used to remove redundant genes and construct a diagnostic model consisting of key genes. The accuracy of the diagnostic model was validated in three independent datasets, and the association between key genes and immune cells was revealed by immune infiltration analysis and single-cell data analysis using the Seurat package.
ResultsA total of 265 DEGs were obtained by differential gene analysis, and the WGCNA algorithm identified a module that was most strongly correlated with pSS (r=0.44, P < 0.01), from which eight iron death-related genes were identified. After removing redundant genes, three key genes related to iron death (PARP9, PARP12, and PARP14) were finally obtained, and a diagnostic model was established based on the three genes. The model exhibited excellent diagnostic performance in three independent datasets (the areas under the receiver operating characteristic curve were 0.848, 0.853 and 1.000, respectively). Immune infiltration analysis and single-cell data analysis revealed significant associations of the three key genes with dendritic cells, macrophages and T/B cells.
ConclusionIn this study, three key genes related to iron death in pSS (PARP9, PARP12, PARP14) are identified based on bioinformatics methods and a diagnostic model of pSS is constructed, providing a new potential tool for the diagnosis of pSS.
-
原发性干燥综合征(pSS)是一种慢性自身免疫性疾病,主要临床表现为口干和眼干,可伴发全身性损害[1]。目前, pSS的确切病因尚不明确,且症状特异性差,易误诊和延迟诊断,导致患者预后不佳。铁死亡是一种新的程序性细胞死亡方式,在多种自身免疫性疾病的发病机制中起着关键作用。铁死亡的特征是抗氧化剂谷胱甘肽消耗和谷胱甘肽过氧化物酶4水平降低,导致脂质过氧化物积累,从而引起广泛的组织细胞死亡。异常死亡细胞释放的组分具有潜在的免疫刺激效应,并可引发自身免疫反应[2]。研究[3-4]表明,铁死亡参与了包括类风湿性关节炎(RA)和系统性红斑狼疮(SLE)在内的多种自身免疫性疾病的发生和发展。pSS作为自身免疫性疾病,其特点之一是持续的慢性炎症,研究[5]表明, EB病毒感染等多种感染参与了pSS的发病和进展。铁死亡是一种特殊类型的细胞死亡方式,可将慢性炎症与氧化应激联系起来[6]。当细胞被感染时,铁死亡可以加剧炎症反应,从而引起器官损害[7]。此外,氧化应激也是铁死亡的主要特征之一,故铁死亡可能在pSS的发病中扮演重要角色。本研究基于多种生物信息学手段识别与pSS相关的铁死亡相关基因,通过机器学习算法去除冗余基因并构建诊断模型,分析铁死亡相关基因在pSS发病过程中的可能作用,以期为pSS的诊断和治疗提供新的视角。
1. 资料与方法
1.1 数据来源
本研究从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)中下载包含外周血单个核细胞(PBMC)样本的5个RNAseq数据集进行分析,包括GSE51092(n=222)、GSE66795(n=164)、GSE84844(n=60)、GSE48378(n=27)和GSE208260(n=57)数据集,其中前2个为训练集,后3个为验证集。另从GEO数据库下载1个单细胞数据集GSE157278, 包括5个来自pSS患者的样本和5个来自健康供体的正常样本。
1.2 铁死亡相关基因收集
FerrDb是用于管理和鉴定铁死亡相关标志物、调控因子以及铁死亡关联疾病的数据库,本研究从FerrDb数据库中获取铁死亡相关基因集,去除重复基因后,最终获得484个基因。
1.3 数据处理和差异表达基因(DEGs)筛选
应用R软件Combat包去除GSE51092数据集和GSE66795数据集的批次效应后进行合并,通过R软件limma包进行差异分析,将调整后P值(P.adj) < 0.05且|差异倍数(FC)|>1.3的基因作为DEGs。
1.4 基因本体论(GO)和京都基因与基因组百科全书(KEGG)富集分析
应用R软件clusterProfiler包和org.Hs.eg.db包对pSS相关DEGs进行GO和KEGG富集分析,并应用ggplot2包将数据可视化。
1.5 加权基因共表达网络分析(WGCNA)
基于R软件WGCNA包构建pSS患者的加权基因共表达网络,首先剔除离群的基因和样本,确定软阈值为4, 并构建无尺度网络和拓扑重叠矩阵,然后将表达高度相关的基因划分至同一基因模块中,最后根据不同模块与pSS的关联性筛选出相关性最高的基因模块。
1.6 诊断模型的构建和验证
机器学习是人工智能的分支,本研究基于分类算法和回归分析算法构建预测模型。最小绝对值收敛和选择算子(LASSO)是一种正则化模型,通常与线性分类器算法支持向量机(SVM)同时使用。LASSO通过对高维数据集中无关变量的系数进行惩罚或缩减,最终获得1个变量较少的模型,具有从高度相关的变量中选择相关特征的能力[8]。SVM是一种监督学习算法,通过建立2个类别之间的决策边界,可从1个或多个特征向量中获得预测标签,结合多个机器学习方法能进一步提高模型的预测能力。
从DEGs、铁死亡相关基因和WGCNA红色模块中筛选出关键基因,通过LASSO和SVM-递归特征消除(RFE)这2种机器学习算法去除冗余基因。绘制受试者工作特征(ROC)曲线,评估关键基因的诊断效能,将曲线下面积(AUC)大于0.8的关键基因重新输入LASSO模型中构建最终的诊断模型。将GSE84844、GSE48378、GSE208260数据集作为验证队列,基于ROC曲线评估诊断模型的诊断性能。
1.7 免疫浸润分析
采用CIBERSORT算法,估计22种不同免疫细胞亚型的浸润情况。从CIBERSORT网站(http://cibersort.stanford.edu/)获取LM22文件,通过R软件对结果进行可视化处理,应用ggcorrplot包可视化表示关键基因与免疫细胞的相关性。
1.8 单细胞RNA测序的质控、降维和注释
使用R软件Seurat包进行单细胞测序数据分析,过滤表达少于3个基因或少于200个基因的细胞,并将表达超过2 500个基因或线粒体基因超过10%的细胞排除。通过主成分分析(PCA)对单细胞测序数据进行降维处理,应用harmony软件包合并单细胞样本,通过FindNeighbors和FindClusters (Dim=30, Resolution=1.9)进行细胞聚类,然后用统一流形逼近和投影(UMAP)图展示聚类结果。应用FindAllMarkers函数确定每个聚类的标记基因。将主成分进行聚类和UMAP表示,最终确定聚类。基于既往研究报道的细胞标记基因,对每个聚类进行手动注释,最终注释出细胞类型。
1.9 不同PBMC细胞类型中关键基因的表达情况
通过ggplot2和ggalluvial包绘制每个样本中不同细胞类型的百分比,通过plot1cell包展示PBMC中各种细胞类型关键基因的表达情况。
1.10 统计学分析
应用R软件(版本4.2.1)进行统计学分析,采用Wilcoxon秩和检验或学生t检验分析2组间的差异,采用Spearman秩相关检验确定变量之间的相关性。所有统计检验采用双侧检验, P < 0.05为差异有统计学意义。
2. 结果
2.1 pSS中DEGs的鉴定及其GO和KEGG富集分析
本研究将2个大样本数据集(GSE51092、GSE66795数据集)作为训练集,应用R软件Combat包消除两者的批次效应后进行合并。去除批次效应后, UMAP图显示2个数据集的样本交织在一起,提示批次效应已成功消除,见图 1A、图 1B。合并后的数据集中共鉴定出265个DEGs(P.adj < 0.05且|FC|>1.3), 其中179个上调, 86个下调。
应用R软件对265个DEGs进行GO和KEGG富集分析,结果见图 1C、图 1D。GO富集分析包括生物学过程(BP)、细胞成分(CC)和分子功能(MF), DEGs的BP包括防御病毒反应、防御共生反应、对病毒的反应等, CC主要富集于ISGF3复合物、含有胶原的细胞外基质和TAP复合物等, MF主要包括双链R结合、D+蛋白质ADP核糖转移酶活性、MHC I类b蛋白质结合和D+ADP核糖转移酶活性; KEGG富集分析显示, DEGs参与多种信号通路,包括流感A病毒、丙型肝炎病毒、Epstein-Barr(EB)病毒感染等。
2.2 WGCNA鉴定与pSS相关的模块
当软阈值确定为β=4, R2=0.86, 网络符合无标度网络的分布,见图 2A、图 2B。应用混合动态剪切树法识别相似的模块并进行合并,最终获得27个基因模块,见图 2C。模块-临床特征相关性分析结果显示,红色模块与pSS的相关性最高(r=0.44, P < 0.01), 见图 2D。红色模块内基因成员与疾病状态高度相关(r=0.82), 见图 2E。将红色模块基因、铁死亡相关基因、DEGs取交集,共得到8个关键基因,见图 2F。
2.3 与铁死亡相关的关键基因的鉴定及pSS诊断模型建立
为了去除冗余基因,应用LASSO模型筛选出4个与铁死亡相关的诊断pSS的关键基因,见图 3A; 为了简化诊断模型并提高诊断模型的准确性,基于SVM-RFE算法对取交集得到的8个关键基因进行二次筛选,见图 3B。2种机器学习方法筛选出4个共同的基因,即TRIM21、PARP9、PARP12和PARP14。绘制ROC曲线评估这4个基因的诊断价值(图 3C~图 3F), 将AUC>0.8的关键基因PARP9、PARP12、PARP14作为pSS的生物标志物。将3个关键基因输入LASSO模型中,得到最终模型方程,即风险评分=-0.523 290 132 2+0.000 010 735 4×PARP12+0.115 903 498 1×PARP9+0.027 443 175 8×PARP14。
2.4 诊断模型的验证结果
为了验证诊断模型的准确性,本研究将GSE84844、GSE208260、GSE48378数据集作为验证集。3个验证集中, 3个关键基因的表达情况见图 4A~图 4C; 3个关键基因在pSS患者(pSS组)和健康个体(对照组)中的表达水平存在差异,见图 4D~图 4F。ROC曲线显示,诊断模型在GSE84844、GSE208260、GSE48378数据集中的AUC分别为0.848、0.853、1.000, 见图 4G~图 4I, 表明诊断模型具有区分pSS患者和健康个体的能力。
2.5 免疫细胞浸润分析
本研究采用直方图显示每个样本免疫细胞分布的总体情况,结果见图 5A。箱线图表明,相较于对照组, pSS组患者的活化树突状细胞(DC)、幼稚B细胞、活化的CD4+ 记忆型T细胞水平较高,而静止期CD4+记忆型T细胞和记忆型B细胞水平较低,见图 5B。22种免疫细胞之间的相关性分析表明, CD8+ T细胞与中性粒细胞呈负相关(r=-0.46), 调节性T细胞(Tregs)与记忆型B细胞呈正相关(r=0.39), 见图 5C。进一步分析3个关键基因与22种免疫细胞的相关性,结果显示, 3个关键基因(PARP12、PARP14、PARP9)均与活化DC呈正相关(r=0.76、0.75、0.72), 与M0型巨噬细胞呈负相关(r=-0.24、-0.22、-0.17), 见图 5D。
2.6 3个关键基因在pSS患者PBMC中的表达
为了进一步探讨3个关键基因在pSS患者PBMC中的表达情况,本研究基于pSS单细胞数据集进一步分析。该数据集共有10个样本,即5个pSS患者的样本(pSS组)和5个健康供体的对照样本(正常组),包含21 176个基因和54 152个细胞,其中pSS组包含28 938个细胞,正常组包含25 214个细胞。应用Seurat包中的UMAP方法将这些细胞分为31个聚类,根据既往文献报道的细胞标志物,手动注释出9种细胞类型,见图 6A、图 6B。正常组和pSS组各细胞类型中3个关键基因的表达情况见图 6C~图 6E, 结果显示, PARP9和PARP14在pSS组的巨噬细胞、常规DC(cDC)、CD14+单核细胞中高度表达, PARP12在巨噬细胞、cDC、CD14+单核细胞中的表达水平未发生变化,但pSS组表达这3个基因的细胞比例增加。
3. 讨论
pSS的症状及诊断指标特异性差,常与其他自身免疫性疾病(如SLE和RA)重叠[9], 易导致诊断延迟和误诊,故寻找新的特异性生物标志物有助于pSS的诊断和治疗。本研究共鉴定出265个DEGs, GO分析结果表明其与响应病毒感染密切相关。既往研究[10]表明,病毒可通过各种机制引起自身免疫性疾病,包括旁观者活化、分子模拟、表位扩散和B细胞免疫活化等。KEGG通路分析同样表明, DEGs富集于与病毒相关的通路,包括流感病毒A和EB病毒感染。流感病毒A可通过其NS1 mRNA的另类阅读框架触发强烈的CD8+ T细胞反应或刺激浆细胞样树突状细胞产生α干扰素(IFN-α)而诱导自身免疫性。另有研究[11]表明, EB病毒也参与了pSS的发病机制。因此,研究人员或有必要更深入地探讨病毒引起的自身免疫性在pSS中的作用。
本研究运用多种生物信息学方法识别pSS中与铁死亡相关的关键基因,并分析了3个与铁死亡相关的关键基因(PARP9、PARP12和PARP14)对pSS发病的诊断价值。铁死亡是一种新的细胞死亡方式[12], 研究[4, 13-14]发现,铁死亡在多种自身免疫性疾病(如SLE、RA和癌症)的发生和进展中具有重要作用。既往研究[15]表明,干扰PARP表达可以调节溶质载体家族7成员11(SLC7A11), 并参与乳腺癌易感基因(BRCA)介导的卵巢癌中的铁死亡过程。在RA中, PARP9是一种具有不同甲基化位点的基因,可影响T淋巴细胞的转录表达,表明PARP9在RA的发病机制中具有重要性[16]。JIANG Z H等[17]发现,在SLE患者的多种免疫细胞中, PARP12表现出低甲基化水平。另有研究[18]表明,基于PARP14、ATP10A和MX1这3个基因构建的评分模型在抗Ro 60阳性的自身免疫性疾病患者中的评分始终高于抗Ro 60阴性的患者。以上研究表明, PARP9、PARP12和PARP14在自身免疫性疾病中可能发挥重要作用,然而PARP9、PARP12和PARP14在pSS发展中的作用尚不明确。
本研究免疫浸润分析结果表明, pSS患者存在活化DC上调, B细胞与T细胞亚群比例失调。进一步观察pSS患者PBMCs的单细胞数据集,本研究发现DC、B细胞、单核细胞和巨噬细胞中PARP9和PARP14上调,表达PARP12的细胞在B细胞和巨噬细胞中的比例略微增加。DC在维持免疫稳态和自身耐受性方面发挥着重要作用,研究[19]已证实cDC破坏CD4+ T细胞自身耐受性,导致自身抗体产生、脾肿大和Th1、Th17效应细胞的增加。一项研究[20]表明,在pSS患者中, IFN-α可高度诱导DC中PARP9的表达,且DC的抗原摄取、处理和呈递功能均发生改变,这增加了Ⅰ型IFN的产生并诱导CD4+ T细胞扩增,促进了pSS的发展。此外,在RA中, PARP9的甲基化与T细胞转录表达的增加相关[16]。在白细胞介素(IL)-4存在的情况下, PARP14介导信号转导与转录激活因子6(Stat6)与其靶基因结合,促进B细胞失调,这是pSS的病理标志之一[21]。同时, PARP14通过与Stat6相互作用调控细胞因子IL-4、IL-5、IL-13的表达,从而促进Th9细胞的发生发展和Th2细胞的分化[22]。这些研究表明, PARP家族可能通过异常调控免疫细胞参与pSS的发病。
本研究通过差异基因分析和WGCNA鉴定出与pSS相关的铁死亡基因,并应用机器学习算法去除冗余基因,筛选出3个可靠的生物标志物(PARP9、PARP12和PARP14)用于构建诊断模型; 在3个验证集中,该诊断模型均表现出高诊断效能,其AUC分别为0.848、0.853和1.000; 免疫浸润分析发现, pSS患者活化DC水平较高, T细胞与B细胞比例失衡, 3个关键基因与活化DC均呈正相关; 基于单细胞数据集验证了3个关键基因在免疫细胞中的表达情况。综上所述,本研究基于生物信息学手段识别出pSS中与铁死亡相关的3个关键基因并构建pSS诊断模型,或可为pSS的诊断提供新工具。
-
-
[1] MAVRAGANI C P, MOUTSOPOULOS H M. Sjögren's syndrome: old and new therapeutic targets[J]. J Autoimmun, 2020, 110: 102364. doi: 10.1016/j.jaut.2019.102364
[2] KOLB J P, OGUIN T H 3rd, OBERST A, et al. Programmed cell death and inflammation: winter is coming[J]. Trends Immunol, 2017, 38(10): 705-718. doi: 10.1016/j.it.2017.06.009
[3] XIA J J, ZHANG L L, GU T, et al. Identification of ferroptosis related markers by integrated bioinformatics analysis and in vitro model experiments in rheumatoid arthritis[J]. BMC Med Genomics, 2023, 16(1): 18. doi: 10.1186/s12920-023-01445-7
[4] LI P C, JIANG M D, LI K T, et al. Glutathione peroxidase 4-regulated neutrophil ferroptosis induces systemic autoimmunity[J]. Nat Immunol, 2021, 22(9): 1107-1117. doi: 10.1038/s41590-021-00993-3
[5] MASLINSKA M, KOSTYRA-GRABCZAK K. The role of virus infections in Sjögren's syndrome[J]. Front Immunol, 2022, 13: 823659. doi: 10.3389/fimmu.2022.823659
[6] YU Y, YAN Y, NIU F L, et al. Ferroptosis: a cell death connecting oxidative stress, inflammation and cardiovascular diseases[J]. Cell Death Discov, 2021, 7(1): 193. doi: 10.1038/s41420-021-00579-w
[7] HABIB H M, IBRAHIM S, ZAIM A, et al. The role of iron in the pathogenesis of COVID-19 and possible treatment with lactoferrin and other iron chelators[J]. Biomedecine Pharmacother, 2021, 136: 111228. doi: 10.1016/j.biopha.2021.111228
[8] OHANYAN H, PORTENGEN L, KAPLANI O, et al. Associations between the urban exposome and type 2 diabetes: results from penalised regression by least absolute shrinkage and selection operator and random forest models[J]. Environ Int, 2022, 170: 107592. doi: 10.1016/j.envint.2022.107592
[9] JONSSON R, BOLSTAD A I, BROKSTAD K A, et al. Sjögren's syndrome: a plethora of clinical and immunological phenotypes with a complex genetic background[J]. Ann N Y Acad Sci, 2007, 1108: 433-447. doi: 10.1196/annals.1422.046
[10] GETTS D R, CHASTAIN E M L, TERRY R L, et al. Virus infection, antiviral immunity, and autoimmunity[J]. Immunol Rev, 2013, 255(1): 197-209. doi: 10.1111/imr.12091
[11] NAGATA Y, INOUE H, YAMADA K, et al. Activation of Epstein-Barr virus by saliva from Sjögren's syndrome patients[J]. Immunology, 2004, 111(2): 223-229. doi: 10.1111/j.0019-2805.2003.01795.x
[12] DIXON S J, LEMBERG K M, LAMPRECHT M R, et al. Ferroptosis: an iron-dependent form of nonapoptotic cell death[J]. Cell, 2012, 149(5): 1060-1072. doi: 10.1016/j.cell.2012.03.042
[13] TAN Q Y, FANG Y Y, GU Q. Mechanisms of modulation of ferroptosis and its role in central nervous system diseases[J]. Front Pharmacol, 2021, 12: 657033. doi: 10.3389/fphar.2021.657033
[14] ZHANG C, LIU X Y, JIN S D, et al. Ferroptosis in cancer therapy: a novel approach to reversing drug resistance[J]. Mol Cancer, 2022, 21(1): 47. doi: 10.1186/s12943-022-01530-y
[15] HONG T, LEI G, CHEN X, et al. PARP inhibition promotes ferroptosis via repressing SLC7A11 and synergizes with ferroptosis inducers in BRCA-proficient ovarian cancer[J]. Redox Biol, 2021, 42: 101928. doi: 10.1016/j.redox.2021.101928
[16] ZHU H, WU L F, MO X B, et al. Rheumatoid arthritis-associated DNA methylation sites in peripheral blood mononuclear cells[J]. Ann Rheum Dis, 2019, 78(1): 36-42. doi: 10.1136/annrheumdis-2018-213970
[17] JIANG Z H, SHAO M T, DAI X Z, et al. Identification of diagnostic biomarkers in systemic lupus erythematosus based on bioinformatics analysis and machine learning[J]. Front Genet, 2022, 13: 865559. doi: 10.3389/fgene.2022.865559
[18] FOULQUIER N, DANTEC C L, BETTACCHIOLI E, et al. Machine learning for the identification of a common signature for anti-SSA/ro 60 antibody expression across autoimmune diseases[J]. Arthritis Rheumatol, 2022, 74(10): 1706-1719. doi: 10.1002/art.42243
[19] BAR-ON L, JUNG S. Defining dendritic cells by conditional and constitutive cell ablation[J]. Immunol Rev, 2010, 234(1): 76-89. doi: 10.1111/j.0105-2896.2009.00875.x
[20] LOPES A P, HILLEN M R, HINRICHS A C, et al. Deciphering the role of cDC2s in Sjögren's syndrome: transcriptomic profile links altered antigen processes with IFN signature and autoimmunity[J]. Ann Rheum Dis, 2023, 82(3): 374-383. doi: 10.1136/ard-2022-222728
[21] MEHROTRA P, RILEY J P, PATEL R, et al. PARP-14 functions as a transcriptional switch for Stat6-dependent gene activation[J]. J Biol Chem, 2011, 286(3): 1767-1776. doi: 10.1074/jbc.M110.157768
[22] GOSWAMI R, JABEEN R, YAGI R, et al. STAT6-dependent regulation of Th9 development[J]. J Immunol, 2012, 188(3): 968-975. doi: 10.4049/jimmunol.1102840
-
期刊类型引用(1)
1. 马晓燕,伍迪. 银屑病铁死亡相关基因的诊断标志物及潜在中药治疗预测(英文). Journal of Chinese Pharmaceutical Sciences. 2025(02): 150-162 . 百度学术
其他类型引用(1)