用户:Angus Cheng/全表型体关联研究
![]() |
在遗传学和遗传流行病学中,全表型体关联研究(Phenome-Wide Wssociation Study,简称 PheWAS )是一种研究设计,测试单一核苷酸多型性(SNP)或其他类型的 DNA 变异与大量不同表型之间的关联性。[1] PheWAS 研究的目标是检验已知基因序列差异与各种类型性状之间的因果关联,包括分子、生化、细胞层面的性状,尤其是临床诊断和结果。[2][3][4] 这是全基因组关联分析( GWAS )方法学的互补手段。[5] GWAS 和 PheWAS 设计的根本差异在于分析方向:在 PheWAS 中,是从暴露因子( DNA 变异)出发,探索多种可能的结果,也就是从 SNP 到表型差异和疾病风险;而在 GWAS 中,分析的方向是从一个或少数表型出发,寻找多个可能的 DNA 变异。[3] 该方法已被证明能有效重新发现先前已报告的基因型与表型关联,[2][5]同时也能识别出新的关联性。[6]
PheWAS 方法的发展源于人类临床电子健康纪录( EHR )去识别化资料和配对基因型资料的广泛可得性,其表型定义采用 ICD代码群组化方式,称为“phecode”。[7] 针对模式生物建构的大型基因组和表型组资料集也被证明对 PheWAS 有效。[8] PheWAS 也利用既有流行病学研究的资料进行分析。2010 年,基于单一研究机构的 EHR 计费代码,发表了第一个概念验证 PheWAS 研究。[9] 尽管该研究的统计检力普遍不足,但其结果显示多个表型之间可能存在新的关联性,这可能源于共同的潜在因子。该论文同时创造了“ PheWAS ”这个缩写。[10] 截至 2019 年,EHR 中的 PheWAS 已使用 ICD-9-CM、[11] ICD-10 和 ICD-10-CM[12] 诊断代码进行研究。
研究方法
[编辑]PheWAS 最初的发展源于电子病历( EMR )在临床实务和病患照护中的日益普及。[9] EMR 系统的主要组成之一是国际疾病分类第9版临床修订版( ICD9 )代码,这是医疗计费纪录的工具。[9] 该系统包含约 14,000 种疾病的资讯,以不同的阶层代码分类。[9] 这些表型资讯构成了 PheWAS 研究的基础,将遗传变异(或变异组合)与广泛的表型进行关联分析。[5]
最常见的 PheWAS 研究会将研究对象分为两组:没有特定 ICD9 代码的个体作为“对照组”,而具有相关 ICD9 代码的个体则为“病例组”。[13] 从特定的遗传变异出发,PheWAS 会系统性地进行遗传变异(通常是SNP)分析,以识别特定基因型与表型的关联性。[13] 透过变异资料,PheWAS 计算基因型分布和卡方分布,接着使用费雪精确检定计算 P 值,从而识别基因型与 EMR 中特定表型的相关程度。[9][14] 通常会应用邦佛洛尼校正来处理计算 P 值时的多重比较问题。
概念验证研究
[编辑]第一个 PheWAS 研究以 6,000 名欧洲裔美国人为对象,选择了 5 个感兴趣的SNP进行验证:rs1333049、rs2200733、rs3135388、rs6457620 和 rs1333049。[9] 品质控制包括检查标记和样本的基因分型效率、等位基因频率计算以及哈温平衡检定。[9]
这个初始的 PheWAS 旨在检验遗传变异对各种表型的影响。[3] 由于 ICD9 并非专为研究目的而设计,该 PheWAS 研究设计了简化遗传研究代码的新方法,对 ICD9 进行三项修改:
- 首先,将来源相同或相似的疾病三位数代码合并。例如,结核病有三个亚型,全部合并为单一病例组 010。[9]
- 其次,对于临床上不同但归类相同的表型,增加第四位数字识别符。例如第一型和第二型糖尿病是两种临床上不同的表型,但都归于 ICD9 代码“ 250 ”,因此添加第四位数字来区分。[9]
- 最后,忽略对基因型与表型分析无用的代码,如异物污染或非特异性症状、非特异性检验结果等。[9]
作为成功案例,该 PheWAS 发现 rs3135388 与多发性硬化症( MS )之间有强烈关联的证据,这是先前已被研究过的关联。[9] 另外 22 种疾病也显示出 P < 0.05 的显著关联。[9]
应用
[编辑]多效性研究
[编辑]PheWAS 研究的主要优势之一是能够识别具有多效性特性的基因组变异。[5] 理解跨表型( CP )关联,即单一遗传变异可影响两个或更多独立表型的现象,是理解多效性作用的关键。[13] 多效性效应研究首先从基因体学与流行病学人群结构计划( Population Architecture using Genomics and Epidemiology,PAGE )研究站点获得基因型和表型资料摘要。[1] 经过品质控制和资料整理步骤后,根据表型资讯进行标准罗吉斯回归或线性回归分析。[1] 接着,所有连续表型在计算 SNP 与转换表型关联之前进行对数转换。[1]
一般而言,PheWAS 研究有两种结果类型:
- 如果基因型与表型的关联先前已被观察并报告,结果可视为“预期的”。[1] 这些情况可验证 PheWAS 的可信度并作为阳性对照。例如,与糖尿病相关的表型,如高胰岛素血症、肥胖和空腹血糖浓度,在 PheWAS 中显示与第二型糖尿病表型相关联。[1]
- “新颖”结果更令人感兴趣,因为它们展现了 PheWAS 发现先前未报告新关联的能力。[1] 如果两个疾病表型先前未知相关,而单一SNP同时与这两个表型相关联,这是多效性作用存在的良好指标。[1] 此类多效性发现的例子是已知与糖尿病相关的 SNP 也显著与关节炎相关联。[1]
虽然发现了表型间的新关联,但仍需进一步的生物学研究来确定其是否真实反映生物系统。[15]
药物反应变异性
[编辑]PheWAS 也成功地突显了个体间药物反应的差异。研究者进行定量 PheWAS 研究以识别硫嘌呤反应的变异性。[16] EMR 储存IBD患者的TPMT(硫嘌呤 S-甲基转移酶)活性定量值,让研究者将患者分为三类:低 TPMTa 、正常 TPMTa 和极高 TPMTa 。[16] 研究发现极高 TPMTa 浓度的族群与糖尿病和缺铁性贫血相关联,进一步显示硫嘌呤治疗在极高 TPMTa 患者中失败的几率是三倍。[16][14] 对极高 TPMTa 浓度患者进行硫嘌呤治疗可能增加贫血发作的频率。[16] 这项 PheWAS 发现可能促进基于患者测量值的个人化医疗发展。相较于对 IBD 患者使用传统硫嘌呤治疗,患者可能从更积极的治疗或其他方法中获得更多益处。[16]
临床意义
[编辑]研究者利用来自 27 个不同实验室的艾滋病临床试验组( ACTG )资料集,对HIV患者进行临床测试。[15] 在将 PheWAS 进一步用于临床决策之前,识别 PheWAS 与临床试验之间的准确性相当重要。该研究成功重现了 47% 先前报告的关联,展现了 PheWAS 处理临床资料的能力。[15] 此外,使用这些临床资料发现了数个多效性效应。具体而言,根据该研究,第 7 号染色体上的一组SNP与LDL-C表型和总胆固醇浓度都相关联。[15] 就临床相关性而言,需要更多研究来验证从 PheWAS 获得的多效性效应。[15]
限制
[编辑]尽管具有良好的潜力,PheWAS 仍有一些潜在限制:
- 统计限制:邦佛洛尼校正可能无法完全处理整个资料集的问题(可能过于保守)。[5]
- ICD9标记限制:并非所有表型都能以 ICD9 代码表示。[5]一个 ICD9 代码可能具有高度变异性,使得无法评估所有患者编码至 ICD9 的表型有效性。[5]
- 关联限制:在进行变异与表型关联的回归分析时,年龄和性别等共变项可能影响结果表型。[5]简单的回归分析无法考虑这些共变项。[5]因此,需要进行后续的表型特异性验证,理想情况下应包含患者共变项的资讯。[5]
- 每个新发现的多效性都需要进一步的生物学验证,以确保资料驱动的关联并非仅是统计上的巧合。[15]
参考文献
[编辑]- ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Pendergrass SA, Brown-Gentry K, Dudek SM, Torstenson ES, Ambite JL, Avery CL, et al. The use of phenome-wide association studies (PheWAS) for exploration of novel genotype-phenotype relationships and pleiotropy discovery. Genetic Epidemiology. July 2011, 35 (5): 410–422. PMC 3116446
. PMID 21594894. doi:10.1002/gepi.20589.
- ^ 2.0 2.1 Denny JC, Bastarache L, Roden DM. Phenome-Wide Association Studies as a Tool to Advance Precision Medicine. Annual Review of Genomics and Human Genetics. August 2016, 17: 353–373. PMC 5480096
. PMID 27147087. doi:10.1146/annurev-genom-090314-024956.
- ^ 3.0 3.1 3.2 Bush WS, Oetjens MT, Crawford DC. Unravelling the human genome-phenome relationship using phenome-wide association studies. Nature Reviews. Genetics. March 2016, 17 (3): 129–145. PMID 26875678. S2CID 32967414. doi:10.1038/nrg.2015.36.
- ^ Wang X, Pandey AK, Mulligan MK, Williams EG, Mozhui K, Li Z, et al. Joint mouse-human phenome-wide association to test gene function and disease risk. Nature Communications. February 2016, 7: 10464. Bibcode:2016NatCo...710464W. PMC 4740880
. PMID 26833085. doi:10.1038/ncomms10464.
- ^ 5.00 5.01 5.02 5.03 5.04 5.05 5.06 5.07 5.08 5.09 Hebbring SJ. The challenges, advantages and future of phenome-wide association studies. Immunology. February 2014, 141 (2): 157–165. PMC 3904236
. PMID 24147732. doi:10.1111/imm.12195.
- ^ Cronin RM, Field JR, Bradford Y, Shaffer CM, Carroll RJ, Mosley JD, et al. Phenome-wide association studies demonstrating pleiotropy of genetic variants within FTO with and without adjustment for body mass index. Frontiers in Genetics. 2014, 5: 250. PMC 4134007
. PMID 25177340. doi:10.3389/fgene.2014.00250
(English).
- ^ Bastarache L. Using Phecodes for Research with the Electronic Health Record: From PheWAS to PheRS. Annual Review of Biomedical Data Science. July 2021, 4: 1–19. PMC 9307256
. PMID 34465180. doi:10.1146/annurev-biodatasci-122320-112352.
- ^ Li H, Wang X, Rukina D, Huang Q, Lin T, Sorrentino V, et al. An Integrated Systems Genetics and Omics Toolkit to Probe Gene Function. Cell Systems. January 2018, 6 (1): 90–102.e4. PMID 29199021. doi:10.1016/j.cels.2017.10.016
.
- ^ 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 9.11 Denny JC, Ritchie MD, Basford MA, Pulley JM, Bastarache L, Brown-Gentry K, et al. PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations. Bioinformatics. May 2010, 26 (9): 1205–1210. PMC 2859132
. PMID 20335276. doi:10.1093/bioinformatics/btq126.
- ^ Roden DM. Phenome-wide association studies: a new method for functional genomics in humans. The Journal of Physiology. June 2017, 595 (12): 4109–4115. PMC 5471509
. PMID 28229460. doi:10.1113/jp273122.
- ^ Wei WQ, Bastarache LA, Carroll RJ, Marlo JE, Osterman TJ, Gamazon ER, et al. Evaluating phecodes, clinical classification software, and ICD-9-CM codes for phenome-wide association studies in the electronic health record. PLOS ONE. 2017, 12 (7): e0175508. Bibcode:2017PLoSO..1275508W. PMC 5501393
. PMID 28686612. doi:10.1371/journal.pone.0175508
.
- ^ Wu P, Gifford A, Meng X, Li X, Campbell H, Varley T, et al. Mapping ICD-10 and ICD-10-CM Codes to Phecodes: Workflow Development and Initial Evaluation. JMIR Medical Informatics. November 2019, 7 (4): e14325. PMC 6911227
. PMID 31553307. doi:10.2196/14325
.
- ^ 13.0 13.1 13.2 Pendergrass SA, Ritchie MD. Phenome-Wide Association Studies: Leveraging Comprehensive Phenotypic and Genotypic Data for Discovery. Current Genetic Medicine Reports. June 2015, 3 (2): 92–100. PMC 4489156
. PMID 26146598. doi:10.1007/s40142-015-0067-9.
- ^ 14.0 14.1 Robinson JR, Denny JC, Roden DM, Van Driest SL. Genome-wide and Phenome-wide Approaches to Understand Variable Drug Actions in Electronic Health Records. Clinical and Translational Science. March 2018, 11 (2): 112–122. PMC 5866959
. PMID 29148204. doi:10.1111/cts.12522.
- ^ 15.0 15.1 15.2 15.3 15.4 15.5 Moore CB, Verma A, Pendergrass S, Verma SS, Johnson DH, Daar ES, et al. Phenome-wide Association Study Relating Pretreatment Laboratory Parameters With Human Genetic Variants in AIDS Clinical Trials Group Protocols. Open Forum Infectious Diseases. January 2015, 2 (1): ofu113. PMC 4396430
. PMID 25884002. doi:10.1093/ofid/ofu113.
- ^ 16.0 16.1 16.2 16.3 16.4 Neuraz A, Chouchana L, Malamut G, Le Beller C, Roche D, Beaune P, et al. Phenome-wide association studies on a quantitative trait: application to TPMT enzyme activity and thiopurine therapy in pharmacogenomics. PLOS Computational Biology. December 2013, 9 (12): e1003405. Bibcode:2013PLSCB...9E3405N. PMC 3873228
. PMID 24385893. doi:10.1371/journal.pcbi.1003405
.