使用者:Angus Cheng/全表型體關聯研究
![]() |
在遺傳學和遺傳流行病學中,全表型體關聯研究(Phenome-Wide Wssociation Study,簡稱 PheWAS )是一種研究設計,測試單一核苷酸多型性(SNP)或其他類型的 DNA 變異與大量不同表型之間的關聯性。[1] PheWAS 研究的目標是檢驗已知基因序列差異與各種類型性狀之間的因果關聯,包括分子、生化、細胞層面的性狀,尤其是臨床診斷和結果。[2][3][4] 這是全基因組關聯分析( GWAS )方法學的互補手段。[5] GWAS 和 PheWAS 設計的根本差異在於分析方向:在 PheWAS 中,是從暴露因子( DNA 變異)出發,探索多種可能的結果,也就是從 SNP 到表型差異和疾病風險;而在 GWAS 中,分析的方向是從一個或少數表型出發,尋找多個可能的 DNA 變異。[3] 該方法已被證明能有效重新發現先前已報告的基因型與表型關聯,[2][5]同時也能識別出新的關聯性。[6]
PheWAS 方法的發展源於人類臨床電子健康紀錄( EHR )去識別化資料和配對基因型資料的廣泛可得性,其表型定義採用 ICD代碼群組化方式,稱為「phecode」。[7] 針對模式生物建構的大型基因組和表型組資料集也被證明對 PheWAS 有效。[8] PheWAS 也利用既有流行病學研究的資料進行分析。2010 年,基於單一研究機構的 EHR 計費代碼,發表了第一個概念驗證 PheWAS 研究。[9] 儘管該研究的統計檢力普遍不足,但其結果顯示多個表型之間可能存在新的關聯性,這可能源於共同的潛在因子。該論文同時創造了「 PheWAS 」這個縮寫。[10] 截至 2019 年,EHR 中的 PheWAS 已使用 ICD-9-CM、[11] ICD-10 和 ICD-10-CM[12] 診斷代碼進行研究。
研究方法
[編輯]PheWAS 最初的發展源於電子病歷( EMR )在臨床實務和病患照護中的日益普及。[9] EMR 系統的主要組成之一是國際疾病分類第9版臨床修訂版( ICD9 )代碼,這是醫療計費紀錄的工具。[9] 該系統包含約 14,000 種疾病的資訊,以不同的階層代碼分類。[9] 這些表型資訊構成了 PheWAS 研究的基礎,將遺傳變異(或變異組合)與廣泛的表型進行關聯分析。[5]
最常見的 PheWAS 研究會將研究對象分為兩組:沒有特定 ICD9 代碼的個體作為「對照組」,而具有相關 ICD9 代碼的個體則為「病例組」。[13] 從特定的遺傳變異出發,PheWAS 會系統性地進行遺傳變異(通常是SNP)分析,以識別特定基因型與表型的關聯性。[13] 透過變異資料,PheWAS 計算基因型分布和卡方分布,接著使用費雪精確檢定計算 P 值,從而識別基因型與 EMR 中特定表型的相關程度。[9][14] 通常會應用邦佛洛尼校正來處理計算 P 值時的多重比較問題。
概念驗證研究
[編輯]第一個 PheWAS 研究以 6,000 名歐洲裔美國人為對象,選擇了 5 個感興趣的SNP進行驗證:rs1333049、rs2200733、rs3135388、rs6457620 和 rs1333049。[9] 品質控制包括檢查標記和樣本的基因分型效率、等位基因頻率計算以及哈溫平衡檢定。[9]
這個初始的 PheWAS 旨在檢驗遺傳變異對各種表型的影響。[3] 由於 ICD9 並非專為研究目的而設計,該 PheWAS 研究設計了簡化遺傳研究代碼的新方法,對 ICD9 進行三項修改:
- 首先,將來源相同或相似的疾病三位數代碼合併。例如,結核病有三個亞型,全部合併為單一病例組 010。[9]
- 其次,對於臨床上不同但歸類相同的表型,增加第四位數字識別符。例如第一型和第二型糖尿病是兩種臨床上不同的表型,但都歸於 ICD9 代碼「 250 」,因此添加第四位數字來區分。[9]
- 最後,忽略對基因型與表型分析無用的代碼,如異物汙染或非特異性症狀、非特異性檢驗結果等。[9]
作為成功案例,該 PheWAS 發現 rs3135388 與多發性硬化症( MS )之間有強烈關聯的證據,這是先前已被研究過的關聯。[9] 另外 22 種疾病也顯示出 P < 0.05 的顯著關聯。[9]
應用
[編輯]多效性研究
[編輯]PheWAS 研究的主要優勢之一是能夠識別具有多效性特性的基因組變異。[5] 理解跨表型( CP )關聯,即單一遺傳變異可影響兩個或更多獨立表型的現象,是理解多效性作用的關鍵。[13] 多效性效應研究首先從基因體學與流行病學人群結構計畫( Population Architecture using Genomics and Epidemiology,PAGE )研究站點獲得基因型和表型資料摘要。[1] 經過品質控制和資料整理步驟後,根據表型資訊進行標準羅吉斯迴歸或線性迴歸分析。[1] 接著,所有連續表型在計算 SNP 與轉換表型關聯之前進行對數轉換。[1]
一般而言,PheWAS 研究有兩種結果類型:
- 如果基因型與表型的關聯先前已被觀察並報告,結果可視為「預期的」。[1] 這些情況可驗證 PheWAS 的可信度並作為陽性對照。例如,與糖尿病相關的表型,如高胰島素血症、肥胖和空腹血糖濃度,在 PheWAS 中顯示與第二型糖尿病表型相關聯。[1]
- 「新穎」結果更令人感興趣,因為它們展現了 PheWAS 發現先前未報告新關聯的能力。[1] 如果兩個疾病表型先前未知相關,而單一SNP同時與這兩個表型相關聯,這是多效性作用存在的良好指標。[1] 此類多效性發現的例子是已知與糖尿病相關的 SNP 也顯著與關節炎相關聯。[1]
雖然發現了表型間的新關聯,但仍需進一步的生物學研究來確定其是否真實反映生物系統。[15]
藥物反應變異性
[編輯]PheWAS 也成功地突顯了個體間藥物反應的差異。研究者進行定量 PheWAS 研究以識別硫嘌呤反應的變異性。[16] EMR 儲存IBD患者的TPMT(硫嘌呤 S-甲基轉移酶)活性定量值,讓研究者將患者分為三類:低 TPMTa 、正常 TPMTa 和極高 TPMTa 。[16] 研究發現極高 TPMTa 濃度的族群與糖尿病和缺鐵性貧血相關聯,進一步顯示硫嘌呤治療在極高 TPMTa 患者中失敗的機率是三倍。[16][14] 對極高 TPMTa 濃度患者進行硫嘌呤治療可能增加貧血發作的頻率。[16] 這項 PheWAS 發現可能促進基於患者測量值的個人化醫療發展。相較於對 IBD 患者使用傳統硫嘌呤治療,患者可能從更積極的治療或其他方法中獲得更多益處。[16]
臨床意義
[編輯]研究者利用來自 27 個不同實驗室的愛滋病臨床試驗組( ACTG )資料集,對HIV患者進行臨床測試。[15] 在將 PheWAS 進一步用於臨床決策之前,識別 PheWAS 與臨床試驗之間的準確性相當重要。該研究成功重現了 47% 先前報告的關聯,展現了 PheWAS 處理臨床資料的能力。[15] 此外,使用這些臨床資料發現了數個多效性效應。具體而言,根據該研究,第 7 號染色體上的一組SNP與LDL-C表型和總膽固醇濃度都相關聯。[15] 就臨床相關性而言,需要更多研究來驗證從 PheWAS 獲得的多效性效應。[15]
限制
[編輯]儘管具有良好的潛力,PheWAS 仍有一些潛在限制:
- 統計限制:邦佛洛尼校正可能無法完全處理整個資料集的問題(可能過於保守)。[5]
- ICD9標記限制:並非所有表型都能以 ICD9 代碼表示。[5]一個 ICD9 代碼可能具有高度變異性,使得無法評估所有患者編碼至 ICD9 的表型有效性。[5]
- 關聯限制:在進行變異與表型關聯的迴歸分析時,年齡和性別等共變項可能影響結果表型。[5]簡單的迴歸分析無法考慮這些共變項。[5]因此,需要進行後續的表型特異性驗證,理想情況下應包含患者共變項的資訊。[5]
- 每個新發現的多效性都需要進一步的生物學驗證,以確保資料驅動的關聯並非僅是統計上的巧合。[15]
參考文獻
[編輯]- ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Pendergrass SA, Brown-Gentry K, Dudek SM, Torstenson ES, Ambite JL, Avery CL, et al. The use of phenome-wide association studies (PheWAS) for exploration of novel genotype-phenotype relationships and pleiotropy discovery. Genetic Epidemiology. July 2011, 35 (5): 410–422. PMC 3116446
. PMID 21594894. doi:10.1002/gepi.20589.
- ^ 2.0 2.1 Denny JC, Bastarache L, Roden DM. Phenome-Wide Association Studies as a Tool to Advance Precision Medicine. Annual Review of Genomics and Human Genetics. August 2016, 17: 353–373. PMC 5480096
. PMID 27147087. doi:10.1146/annurev-genom-090314-024956.
- ^ 3.0 3.1 3.2 Bush WS, Oetjens MT, Crawford DC. Unravelling the human genome-phenome relationship using phenome-wide association studies. Nature Reviews. Genetics. March 2016, 17 (3): 129–145. PMID 26875678. S2CID 32967414. doi:10.1038/nrg.2015.36.
- ^ Wang X, Pandey AK, Mulligan MK, Williams EG, Mozhui K, Li Z, et al. Joint mouse-human phenome-wide association to test gene function and disease risk. Nature Communications. February 2016, 7: 10464. Bibcode:2016NatCo...710464W. PMC 4740880
. PMID 26833085. doi:10.1038/ncomms10464.
- ^ 5.00 5.01 5.02 5.03 5.04 5.05 5.06 5.07 5.08 5.09 Hebbring SJ. The challenges, advantages and future of phenome-wide association studies. Immunology. February 2014, 141 (2): 157–165. PMC 3904236
. PMID 24147732. doi:10.1111/imm.12195.
- ^ Cronin RM, Field JR, Bradford Y, Shaffer CM, Carroll RJ, Mosley JD, et al. Phenome-wide association studies demonstrating pleiotropy of genetic variants within FTO with and without adjustment for body mass index. Frontiers in Genetics. 2014, 5: 250. PMC 4134007
. PMID 25177340. doi:10.3389/fgene.2014.00250
(English).
- ^ Bastarache L. Using Phecodes for Research with the Electronic Health Record: From PheWAS to PheRS. Annual Review of Biomedical Data Science. July 2021, 4: 1–19. PMC 9307256
. PMID 34465180. doi:10.1146/annurev-biodatasci-122320-112352.
- ^ Li H, Wang X, Rukina D, Huang Q, Lin T, Sorrentino V, et al. An Integrated Systems Genetics and Omics Toolkit to Probe Gene Function. Cell Systems. January 2018, 6 (1): 90–102.e4. PMID 29199021. doi:10.1016/j.cels.2017.10.016
.
- ^ 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 9.11 Denny JC, Ritchie MD, Basford MA, Pulley JM, Bastarache L, Brown-Gentry K, et al. PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations. Bioinformatics. May 2010, 26 (9): 1205–1210. PMC 2859132
. PMID 20335276. doi:10.1093/bioinformatics/btq126.
- ^ Roden DM. Phenome-wide association studies: a new method for functional genomics in humans. The Journal of Physiology. June 2017, 595 (12): 4109–4115. PMC 5471509
. PMID 28229460. doi:10.1113/jp273122.
- ^ Wei WQ, Bastarache LA, Carroll RJ, Marlo JE, Osterman TJ, Gamazon ER, et al. Evaluating phecodes, clinical classification software, and ICD-9-CM codes for phenome-wide association studies in the electronic health record. PLOS ONE. 2017, 12 (7): e0175508. Bibcode:2017PLoSO..1275508W. PMC 5501393
. PMID 28686612. doi:10.1371/journal.pone.0175508
.
- ^ Wu P, Gifford A, Meng X, Li X, Campbell H, Varley T, et al. Mapping ICD-10 and ICD-10-CM Codes to Phecodes: Workflow Development and Initial Evaluation. JMIR Medical Informatics. November 2019, 7 (4): e14325. PMC 6911227
. PMID 31553307. doi:10.2196/14325
.
- ^ 13.0 13.1 13.2 Pendergrass SA, Ritchie MD. Phenome-Wide Association Studies: Leveraging Comprehensive Phenotypic and Genotypic Data for Discovery. Current Genetic Medicine Reports. June 2015, 3 (2): 92–100. PMC 4489156
. PMID 26146598. doi:10.1007/s40142-015-0067-9.
- ^ 14.0 14.1 Robinson JR, Denny JC, Roden DM, Van Driest SL. Genome-wide and Phenome-wide Approaches to Understand Variable Drug Actions in Electronic Health Records. Clinical and Translational Science. March 2018, 11 (2): 112–122. PMC 5866959
. PMID 29148204. doi:10.1111/cts.12522.
- ^ 15.0 15.1 15.2 15.3 15.4 15.5 Moore CB, Verma A, Pendergrass S, Verma SS, Johnson DH, Daar ES, et al. Phenome-wide Association Study Relating Pretreatment Laboratory Parameters With Human Genetic Variants in AIDS Clinical Trials Group Protocols. Open Forum Infectious Diseases. January 2015, 2 (1): ofu113. PMC 4396430
. PMID 25884002. doi:10.1093/ofid/ofu113.
- ^ 16.0 16.1 16.2 16.3 16.4 Neuraz A, Chouchana L, Malamut G, Le Beller C, Roche D, Beaune P, et al. Phenome-wide association studies on a quantitative trait: application to TPMT enzyme activity and thiopurine therapy in pharmacogenomics. PLOS Computational Biology. December 2013, 9 (12): e1003405. Bibcode:2013PLSCB...9E3405N. PMC 3873228
. PMID 24385893. doi:10.1371/journal.pcbi.1003405
.