Analysis and prediction of albinism co-phenotypes based on co-occurrence network
-
摘要:目的
分析白化病表型特征及其关联性。
方法从PubMed数据库中获取2023年6月10日前白化病相关研究文献,从其摘要文本中抽取表型实体,构建表型共现网络。采用GePhi和VOSviewer软件分析网络的整体特征和表型聚类情况。采用Apriori算法挖掘表型间的关联规则。使用AA指数进行链路预测,预测可能的白化病表型组合。
结果白化病表型共现网络具有小世界特性,眼球震颤、皮肤色素减退和视网膜中央凹发育不良是其主要表型。白化病表型异常主要分为5大类,包括视觉系统异常、免疫系统异常、皮肤和毛发系统异常、神经系统异常、呼吸和消化系统异常。多种眼部异常均与眼球震颤共现。白化病可能出现的异常表型组合包括肺炎与皮肤色素减退、视网膜中央凹发育不良和视神经萎缩等表型组合。
结论预测并分析白化病的表型特征及表型间的关联规律,以及白化病患者可能出现的表型共现情况,可为确定白化病的研究方向及识别、诊断、预判白化病的发展提供有效参考。
Abstract:ObjectiveTo analyze the phenotypic characteristics of albinism and their correlations.
MethodsLiteratures related to albinism in PubMed database before June 10, 2023 were obtained, and phenotypic entities were extracted from their abstract texts to construct a phenotypic co-occurrence network. GePhi and VOSviewer software were used to analyze the overall characteristics and phenotypic clustering of the network. The Apriori algorithm was used to mine the association rules between phenotypes. The AA index was used for link prediction, predicting possible combinations of albino phenotypes.
ResultsThe phenotypic co-occurrence network of albinism had a small-world characteristic, and nystagmus, hypopigmentation of skin and foveal dysplasia of retina were the main phenotypes. Phenotypic abnormalities of albinism were mainly divided into five categories, including visual system abnormalities, immune system abnormalities, skin and hair system abnormalities, nervous system abnormalities, and respiratory as well as digestive system abnormalities. A variety of ocular abnormalities were associated with nystagmus. The combination of abnormal phenotypes that may occur in albinism included pneumonia with hypopigmentation of the skin, foveal dysplasia of the retina and atrophy of the optic nerve.
ConclusionPredicting and analyzing the phenotypic characteristics of albinism and the associative patterns among phenotypes, as well as the potential co-occurrence of phenotypes in albinism patients can provide valuable references for identifying research directions for albinism and for the recognition, diagnosis, and prediction of albinism development.
-
Keywords:
- albinism /
- phenotypic co-occurrence /
- GePhi software /
- VOSviewer software /
- association rules /
- link prediction
-
白化病是一种罕见的隐性遗传病[1], 表现为皮肤、毛发等发白,以及眼睛怕光、视力降低等症状。基因测序可用于判别白化病,但其成本高、耗时长。深入了解疾病的表型成了判别白化病的另一重要途径。表型指生物体上受基因、环境等影响而表现出的特征,是疾病最直接的体现[2-4]。研究[5-6]表明,表型可以用于疾病的识别、诊断和致病基因的预测。一种疾病往往伴有多种表型特征,这些特征在不同发展阶段或不同分型中可能会有所不同。目前,白化病表型关系的相关研究较为少见。深入分析疾病的表型关系及规律,有助于增加对疾病的理解,以及更好地判断疾病的不同类型和阶段,进而预测疾病发展趋势,为诊疗决策提供参考依据。本研究以白化病表型为分析对象,旨在为白化病的识别、诊断和预测其发展提供有效参考。
1. 数据和方法
1.1 数据来源与处理
① 数据准备: 首先,获取白化病研究文献。以PubMed为数据源,以白化病的主题词“Albinism”为检索词进行主题检索,检索时间为2023年6月10日,获得白化病相关研究文献共5 300篇。将检索结果的题录信息导出,去除其中的无摘要记录,最终得到有效文献共3 792篇。其次,构建表型词典。为提取白化病研究文献中的表型实体,本研究结合人类表型本体(HPO)数据库[7]和PHECODE与HPO的映射数据[8]构建表型词典,词典中包含16 662种疾病异常表型术语及其同义词。②白化病表型提取及筛选: 采用自编Java命名实体识别程序对获得文献的摘要文本进行表型实体的识别和抽取,得到每篇白化病研究文献中的疾病表型词语。然后,采用词形还原及同义词合并的方法将表型名称进行归一化,使得每一个表型概念只用1个唯一的词语来表达。越接近HPO树状层级结构顶层,表型的概念越笼统。本研究从抽取出的数据中剔除位于树状结构前4层的表型数据(已处于最低叶节点的表型除外),保留抽取结果中位于HPO第5层及以下、第5层及以上,但本身已经是最低叶节点的表型作为最终分析数据。③白化病表型共现矩阵的构建: 采用COOC6.4统计软件,基于在同一篇文章中的共现关系,将最终得到的表型数据构建成1个共现矩阵,其即是一张表型共现网络。为能够从表型共现网络中发现具有重要作用的表型节点,较为清晰呈现出网络的结构特征,构建共现网络时选择了出现频次≥5的表型。
1.2 研究方法
① 社会网络分析方法[9]: 分别采用GePhi和VOSviewer 1.3.19软件,对表型共现网络进行社会网络整体特征分析和聚类可视化分析,揭示白化病的共表型特征及分析主要的白化病表型类别。② Apriori[10]关联规则分析法: 采用Apriori算法,对抽取出的文献-表型记录进行关联规则提取,用于挖掘白化病表型共现的潜在模式。③链路预测方法: 链路预测用于挖掘现有表型共现网络中尚未产生连边的2个表型节点之间将会产生链接的可能性,即预测未来最有可能产生的共表型对。本研究从12种节点相似性计算模型[11-12]中选择效果评价指标曲线下面积(AUC)[13]最大的一种,作为本研究进行表型关联预测的方法,进行白化病的共表型预测。
2. 结果
2.1 白化病的表型共现网络分析
本研究使用的表型数据之间是共现关系,没有指向性,因此构建的网络图为无向图。
2.1.1 整体网络特征分析
采用GePhi0.10.1软件读取表型共现矩阵,生成白化病表型的共现网络图谱(图 1)。图 1中,圆形节点代表白化病表型,节点间连线代表节点间存在的共现关系。节点面积大小和颜色深浅代表节点的度中心性,面积越大、颜色越深,节点的度中心性越大,该节点在网络中的地位和作用越重要。节点间连线越粗2个节点的共现次数越多,节点间的关系越密切。经计算,整个网络图谱包含163个节点, 1 531条连边; 图谱的网络密度为0.116, 节点的平均聚类系数为0.499, 平均路径长度为2.107。
2.1.2 表型聚类分析
利用VOSViewer1.3.19软件对表型进行聚类并可视化(图 2)。依据各表型节点之间关联的紧密程度,可将网络中的白化病表型划分为5大类,同一类的表型节点颜色相同,代表白化病的一类异常表型集。
2.2 白化病表型的关联规则
使用Python编写Apriori关联规则提取算法,设置最低支持度为0.01, 置信度为0.05, 提升度大于1, 读取提取出的“文献-表型”条目数据,运行代码后得到共16条白化病表型的强关联规则(表 1)。
表 1 白化病领域表型共现关联规则序号 关联规则 支持度 置信度 1 视网膜中央凹发育不良→眼球震颤 0.040 848 806 0.611 111 111 2 皮肤色素减退→眼球震颤 0.030 238 727 0.205 776 173 3 斜视→眼球震颤 0.028 647 215 0.720 000 000 4 先天性眼震→眼球震颤 0.021 220 159 0.555 555 556 5 结肠炎→肺纤维化 0.020 689 655 0.393 939 394 6 视力下降→眼球震颤 0.020 689 655 0.684 210 526 7 畏光→眼球震颤 0.019 628 647 0.587 301 587 8 视网膜中央凹发育不良→皮肤色素减退 0.019 098 143 0.285 714 286 9 视网膜中央凹发育不良,眼球震颤→皮肤色素减退 0.015 384 615 0.376 623 377 10 视网膜中央凹发育不良,皮肤色素减退→眼球震颤 0.015 384 615 0.805 555 556 11 眼球震颤,皮肤色素减退→视网膜中央凹发育不良 0.015 384 615 0.508 771 930 12 白癜风→花斑 0.012 732 095 0.480 000 000 13 肝脾肿大→发热 0.011 671 088 0.564 102 564 14 视力下降→皮肤色素减退 0.011 140 584 0.368 421 053 15 鳞状细胞癌→皮肤肿瘤 0.010 079 576 0.487 179 487 16 视力障碍→眼球震颤 0.010 079 576 0.263 888 889 2.3 白化病共表型预测
本研究采用常用的12种相似性指标对含权和不含权的表型共现网络进行基于节点相似性的节点关联预测训练,以AUC作为预测性能评价标准来衡量12种预测算法的精确度。AUC取值范围在0.5~1.0, 越接近1.0, 表示模型预测的效果越好。因此,选择AUC均值最大的相似性指标计算当前未链接节点间出现链接的概率[14]。
本研究中,首先对表型共现网络中的连边按照一定比例划分为训练集和测试集。然后使用不同的相似性指标对训练集进行100次伯努利试验并计算每一次的AUC值。统计得到的每个指标算法的AUC算术平均值(表 2)。不含权AA指标的AUC值最高,为0.985 5。故选用不含权的AA指标作为下一步白化病共表型预测的相似度计算指标。
表 2 相似度计算指标的含权和不含权算法AUC均值序号 指标 AUC均值(不含权) AUC均值(含权) 1 AA 0.985 5 0.983 5 2 PA 0.854 0 0.855 0 3 RA 0.980 5 0.985 0 4 CN 0.977 5 0.974 5 5 Salton 0.965 5 0.971 5 6 Jaccard 0.948 5 0.964 0 7 Sorenson 0.948 5 0.963 5 8 HPI 0.962 0 0.967 0 9 HDI 0.936 5 0.949 5 10 LHN-I 0.899 5 0.904 5 11 LP 0.950 5 0.045 5 12 Katz 0.899 0 0.925 0 AA: 度量网络中2个节点间的相似性指标; PA: 优先连接指标; RA: 资源分配指标; CN: 共同邻居指标; Salton: Salton指标; Jaccard: Jaccard指标; Sorenson: Sorenson指标; HPI: 大度节点有利指标; HDI: 大度节点不利指标; LHN-I: LHN-I指标; LP: 局部路径指标; Katz: Katz指标。 AA指标基于共同邻居原理,衡量2个顶点之间的连接潜力,其值越大,表明节点的连接潜力越大。对表型共现网络中无连边的节点对间的AA值进行计算,连接潜力排名前10节点见表 3。
表 3 AA指标中前10节点的白化病表型对序号 表型节点 AA指标值 1 肺炎 皮肤色素减退 8.082 1 2 视杆-视锥细胞营养不良 皮肤色素减退 7.072 9 3 视网膜中央凹发育不良 视神经萎缩 6.958 1 4 视杆-视锥细胞营养不良 视网膜中央凹发育不良 6.957 3 5 白内障 视力下降 6.778 9 6 斜视 无虹膜 6.560 5 7 白内障 全色盲 6.418 4 8 斜视 视杆-视锥细胞营养不良 6.362 3 9 视网膜形态异常 无虹膜 6.340 0 10 近视 视神经发育不全 6.234 2 3. 讨论
白化病表型共现网络密度为0.116,体现了白化病表型的多样性和分散性。较高的聚类系数(0.499)和较小的路径长度(2.107), 说明白化病表型共现网络中存在模块化结构,相似表型倾向于聚集在一起,为下一步聚类分析提供了可行性依据。眼球震颤、皮肤色素减退、视网膜中央凹发育不良为3大核心节点,是白化病典型症状,深入研究这3个表型对白化病诊断、治疗具有重要意义。
本研究图 2中,红色节点代表了眼部结构与视能异常表型集,凸显了眼球震颤[15]、视网膜中央凹发育不良、斜视等眼部白化病常见症状,提示眼部结构的畸形和视能问题; 绿色节点代表了免疫系统异常表型集,包括发热、肝脾肿大、肺炎等核心症状,提示白化病患者免疫系统[16]功能紊乱; 蓝色节点代表了皮肤和毛发系统异常表型集,以皮肤色素减退为核心,通常与黑色素细胞功能受损有关[17],突显白化病患者体内黑色素细胞发育和功能异常; 黄色节点代表了神经系统异常表型集,如抑郁、帕金森综合征[18]等表型,提示白化病患者中情绪调节和神经系统功能异常; 紫色节点代表了呼吸和消化系统异常表型集,如肺纤维化、结肠炎[19]等,提示白化病患者呼吸和消化系统功能障碍。上述表型集共同体现了白化病多系统受累的复杂性。其各自具有独特的病理生理特征,且相互之间可能存在复杂关联机制。深入研究这些表型间的内在联系,有助于揭示白化病的病因和发病机制,可为白化病的诊断和治疗提供新思路。
本研究中, 16条关联规则中有13条为2项关联, 3条为3项关联。2项关联规则中,有7条后项为眼球震颤,表明多种眼部症状都是白化病患者出现眼球震颤的危险因素,在治疗中应尽早预防。其余6条描述白化病及其并发症的关系,如肝脾肿大会出现发热、结肠炎会引起肺纤维化等,提示白化病存在多种并发症,其可为诊断及判断病程提供参考。3条3项关联规则项集包括视网膜中央凹发育不良、皮肤色素减退和眼球震颤,且3条规则支持度相同,说明其出现概率相同。提示可从这些表型的基因或环境方面探讨白化病的发展机制。其中“视网膜中央凹发育不良,皮肤色素减退→眼球震颤”的置信度最大,表明患者同时出现前项中的2个表型时,其更可能发生眼球震颤。
本研究中,白化病患者最可能产生关联的表型对是“肺炎-皮肤色素减退”。皮肤色素减退是白化病的主要表型[20]。白化病患者存在免疫缺陷,易感染病原体,进而增加肺炎发生风险。故二者共现可能是白化病患者系统受累的结果。其次可能产生关联的表型对是“视网膜中央凹发育不良-视神经萎缩”。前者会影响视觉清晰度,与无虹膜、全色盲等[21]眼部和全身性疾病相关; 后者以视功能损害及视乳头颜色苍白[22]为主要特征。二者均属于眼部异常,可能存在共同的发病机制。此外,还可能出现“白内障-视力下降”“斜视-无虹膜”等表型对。白内障作为白化病的并发症之一,可能导致患者视力显著下降[23]。斜视可能与眼球震颤具有相同机制[15, 24], 即由于控制眼球运动的神经肌肉异常而共同表现出来。无虹膜与视网膜中央凹发育不良相关,经常并发于其他眼部异常。斜视与无虹膜可能因白化病眼部异常表型的关联而产生共现。本研究存在不足之处:研究数据来源单一,且最小支持度与置信度阈值设定主观,可能影响结论的客观性。今后还需从多源收集数据,用深度学习确定最佳阈值,并开展多学科合作,综合不同视角探讨白化病表型。
综上所述,预测并分析白化病表型共现原因,对确诊、了解其临床特征具有重要意义,有助于预测白化病并发症,及早进行识别和治疗。
-
表 1 白化病领域表型共现关联规则
序号 关联规则 支持度 置信度 1 视网膜中央凹发育不良→眼球震颤 0.040 848 806 0.611 111 111 2 皮肤色素减退→眼球震颤 0.030 238 727 0.205 776 173 3 斜视→眼球震颤 0.028 647 215 0.720 000 000 4 先天性眼震→眼球震颤 0.021 220 159 0.555 555 556 5 结肠炎→肺纤维化 0.020 689 655 0.393 939 394 6 视力下降→眼球震颤 0.020 689 655 0.684 210 526 7 畏光→眼球震颤 0.019 628 647 0.587 301 587 8 视网膜中央凹发育不良→皮肤色素减退 0.019 098 143 0.285 714 286 9 视网膜中央凹发育不良,眼球震颤→皮肤色素减退 0.015 384 615 0.376 623 377 10 视网膜中央凹发育不良,皮肤色素减退→眼球震颤 0.015 384 615 0.805 555 556 11 眼球震颤,皮肤色素减退→视网膜中央凹发育不良 0.015 384 615 0.508 771 930 12 白癜风→花斑 0.012 732 095 0.480 000 000 13 肝脾肿大→发热 0.011 671 088 0.564 102 564 14 视力下降→皮肤色素减退 0.011 140 584 0.368 421 053 15 鳞状细胞癌→皮肤肿瘤 0.010 079 576 0.487 179 487 16 视力障碍→眼球震颤 0.010 079 576 0.263 888 889 表 2 相似度计算指标的含权和不含权算法AUC均值
序号 指标 AUC均值(不含权) AUC均值(含权) 1 AA 0.985 5 0.983 5 2 PA 0.854 0 0.855 0 3 RA 0.980 5 0.985 0 4 CN 0.977 5 0.974 5 5 Salton 0.965 5 0.971 5 6 Jaccard 0.948 5 0.964 0 7 Sorenson 0.948 5 0.963 5 8 HPI 0.962 0 0.967 0 9 HDI 0.936 5 0.949 5 10 LHN-I 0.899 5 0.904 5 11 LP 0.950 5 0.045 5 12 Katz 0.899 0 0.925 0 AA: 度量网络中2个节点间的相似性指标; PA: 优先连接指标; RA: 资源分配指标; CN: 共同邻居指标; Salton: Salton指标; Jaccard: Jaccard指标; Sorenson: Sorenson指标; HPI: 大度节点有利指标; HDI: 大度节点不利指标; LHN-I: LHN-I指标; LP: 局部路径指标; Katz: Katz指标。 表 3 AA指标中前10节点的白化病表型对
序号 表型节点 AA指标值 1 肺炎 皮肤色素减退 8.082 1 2 视杆-视锥细胞营养不良 皮肤色素减退 7.072 9 3 视网膜中央凹发育不良 视神经萎缩 6.958 1 4 视杆-视锥细胞营养不良 视网膜中央凹发育不良 6.957 3 5 白内障 视力下降 6.778 9 6 斜视 无虹膜 6.560 5 7 白内障 全色盲 6.418 4 8 斜视 视杆-视锥细胞营养不良 6.362 3 9 视网膜形态异常 无虹膜 6.340 0 10 近视 视神经发育不全 6.234 2 -
[1] 张坤婷, 李小利, 李顺平. 白化病患者报告结局的系统评价[J]. 中国药物经济学, 2023, 18(5): 18-22. https://www.cnki.com.cn/Article/CJFDTOTAL-ZYWA202305003.htm [2] XUAN Z X, HU X P, XU T, et al. Identification and validation of subclusters of papillary thyroid carcinoma based on Human Phenotype Ontology[J]. Gland Surg, 2023, 12(5): 664-676. doi: 10.21037/gs-23-124
[3] 王培萱. 基于表型的罕见遗传病辅助诊断的研究和应用[D]. 上海: 上海交通大学, 2019. [4] 龚晓峰. 基于人类表型本体的遗传病诊断[D]. 上海: 上海交通大学, 2018. [5] 赵晗. 基于相似度的致病基因预测方法研究[D]. 济南: 山东师范大学, 2023. [6] SLAVOTINEK A, PRASAD H, YIT, et al. Predicting genes from phenotypes using human phenotype ontology (HPO) terms[J]. Hum Genet, 2022, 141(11): 1749-1760. doi: 10.1007/s00439-022-02449-6
[7] KÖHLER S, VASILEVSKY N A, ENGELSTAD M, et al. The human phenotype ontology in 2017[J]. Nucleic Acids Res, 2017, 45(D1): D865-D876. doi: 10.1093/nar/gkw1039
[8] MCARTHUR E, BASTARACHE L, CAPRA A. Linking rare and common disease vocabularies by mapping between the human phenotype ontology and phecodes[J]. JAMIA Open, 2023, 6(1): ooad007. doi: 10.1093/jamiaopen/ooad007
[9] 李镇. 基于社会网络和共词分析的经济法课程新型教学模式分析[J]. 科教导刊, 2023(22): 117-120. https://www.cnki.com.cn/Article/CJFDTOTAL-KJDS202322037.htm [10] 张梦琦. 基于Apriori算法的关联规则分析[D]. 大连: 大连理工大学, 2021. [11] 岳增慧, 许海云, 王倩飞. 基于局部信息相似性的学科引证知识扩散动态链路预测研究[J]. 情报理论与实践, 2020, 43(2): 84-91, 99. https://www.cnki.com.cn/Article/CJFDTOTAL-QBLL202002014.htm [12] BAI M, HU K, TANG Y. Link prediction based on a semi-local similarity index[J]. Chin Phys B, 2011, 20(12): 128902. doi: 10.1088/1674-1056/20/12/128902
[13] 蒋茜茜, 张晓娟. 共词网络链路预测局部相似性指标的优化改进研究[J]. 情报理论与实践, 2022, 45(7): 165-173. https://www.cnki.com.cn/Article/CJFDTOTAL-QBLL202207023.htm [14] 吴胜男, 田若楠, 蒲虹君, 等. 基于社交媒体的医药领域关联主题预测方法研究[J]. 数据分析与知识发现, 2021, 5(12): 98-109. https://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ202112009.htm [15] 谢小华, 吕露, 陈英, 等. 眼球震颤诊治进展[J]. 国际眼科杂志, 2019, 19(5): 791-795. https://www.cnki.com.cn/Article/CJFDTOTAL-GJYK201905024.htm [16] 赵国杰, 崔博, 佘晓俊, 等. 昼夜节律调控免疫系统功能的研究进展[J]. 军事医学, 2022, 46(8): 621-626, 641. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYX202208010.htm [17] 刘鹏, 王文配, 王皓, 等. 海胆营养成分及活性物质研究进展[J]. 水产养殖, 2023, 44(9): 30-36. https://www.cnki.com.cn/Article/CJFDTOTAL-SCYZ202309006.htm [18] 李铃, 闫卫红, 刘晓蕾, 等. 帕金森综合征的异常眼球运动研究进展[J]. 中国实用神经疾病杂志, 2023, 26(4): 515-518. https://www.cnki.com.cn/Article/CJFDTOTAL-HNSJ202304023.htm [19] 黄晓燕, 邹孟龙, 陈雅璐, 等. 基于生物信息学筛选铁死亡参与溃疡性结肠炎的核心基因及中药治疗预测[J]. 西部中医药, 2023, 36(12): 50-54. https://www.cnki.com.cn/Article/CJFDTOTAL-GSZY202312012.htm [20] 中华人民共和国国家卫生健康委员会. 罕见病指南. 2019版[M]. 北京: 人民卫生出版社, 2019: 469-473. [21] KAVALARAKI A, PARASKEVOPOULOS K, KAVALARAKI M, et al. Foveal hypoplasia in a child with tyrosinase-positive albinism[J]. Cureus, 2023, 15(9): e44558.
[22] 韦立群. 注射用鼠神经生长因子治疗视神经萎缩的作用评价[J]. 临床医药文献电子杂志, 2017, 4(38): 7469-7469, 7471. https://www.cnki.com.cn/Article/CJFDTOTAL-LCWX201738113.htm [23] 王从玉, 李鹏飞, 王思文, 等. 自噬流调控在白内障眼病中的研究进展[J]. 国际眼科杂志, 2023, 23(9): 1477-1481. https://www.cnki.com.cn/Article/CJFDTOTAL-GJYK202309010.htm [24] 刘育榕, 张繁友. 不同类型斜视手术前后远近立体视的变化[J]. 国际眼科杂志, 2018, 18(5): 819-822. https://www.cnki.com.cn/Article/CJFDTOTAL-GJYK201805014.htm