使用者:Angus Cheng/VCF
外觀
副檔名 |
.vcf |
---|---|
開發者 | 千人基因組計劃 |
最新版本 | 4.5 2024年6月28日 |
格式類型 | 生物資訊學 |
延伸自 | 制表符分隔值 |
延伸為 | gVCF |
自由格式? | 是 |
網站 | samtools |
基因變異儲存格式(暫譯)(Variant Call Format,簡稱VCF)是一種標準文本文件格式,用於在生物資訊學中儲存基因序列或DNA序列變異。該格式於2010年為千人基因組計劃而開發,自此以來被其他大型基因型分型和DNA定序項目廣泛使用。[1][2] 由於其相對簡單和可擴展性,VCF成為變異檢測程序的常見輸出格式。[3][4]
VCF格式的當前標準版本為4.5。[5] 除了標準VCF外,還有基於它擴展的基因組VCF(genomic VCF,簡稱gVCF),包括有關與參考序列匹配的「區塊」及其品質的額外資訊。[6][7]
範例
[編輯]##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

VCF文件的標頭
[編輯]標頭是文件的開頭,包含描述文件主體的元數據,每行以#或##開頭。推薦的關鍵詞包括fileformat、fileDate和reference。
VCF的欄位
[編輯]VCF主體部分跟隨標頭,以制表符分隔為8個必需欄位和無限數量的可選欄位記錄其他資訊。
名稱 | 簡介 | |
---|---|---|
1 | CHROM | 發生變異的序列名稱(通常為染色體) |
2 | POS | 變異在序列中的位置(從1開始) |
3 | ID | 變異的標識符,例如dbSNP的rs標識符;如果未知,則為「.」。多個標識符用分號分隔,無空格。 |
4 | REF | 在給定位點參考序列上的參考鹼基(或在插入缺失變異情況下的鹼基序列)。 |
5 | ALT | 在此位置的備選等位基因列表。 |
6 | QUAL | 與這些等位基因推斷相關的質量分數。 |
7 | FILTER | 標誌變異是否通過或未通過某些過濾標準,通過的標記為「PASS」。 |
8 | INFO | 可擴展的鍵值對列表(欄位),描述變異信息。多個欄位用分號分隔,格式為:<鍵>=<值> 。
|
9 | FORMAT | 描述樣本的欄位列表(可選)。請參考以下示例。 |
+ | SAMPLEs | 每個樣本的數據,依據FORMAT欄位描述的格式記錄值。 |
常見的INFO欄位
[編輯]INFO欄位允許定義任意鍵值,但以下子欄位是預留的(雖然是可選的):[5]
名稱 | 簡介 |
---|---|
AA | 祖先等位基因 |
AC | 基因型中的每個ALT等位基因的等位基因計數 |
AF | 每個ALT等位基因的等位基因頻率(應從原始數據估算) |
AN | 基因型中所有等位基因的總數 |
BQ | 此位置的RMS鹼基質量 |
CIGAR | 描述如何將ALT等位基因與參考等位基因對齊的CIGAR字符串 |
DB | 表示此變異存在於dbSNP資料庫中 |
DP | 所有樣本的總深度,例如:DP=154 |
END | 使用符號等位基因時,此記錄所描述變異的結束位置 |
H2 | 表示該記錄屬於HapMap2數據 |
H3 | 表示該記錄屬於HapMap3數據 |
MQ | RMS映射質量,例如:MQ=52 |
NS | 有數據的樣本數 |
SB | 此位置的鏈偏差 |
SOMATIC | 表明記錄為體細胞突變(通常用於癌症基因組學) |
VALIDATED | 經過後續實驗驗證 |
1000G | 表明此記錄屬於千人基因組計劃 |
常見的FORMAT欄位
[編輯]名稱 | 簡介 |
---|---|
AD | 每個等位基因的讀取深度 |
ADF | 正鏈上每個等位基因的讀取深度 |
ADR | 負鏈上每個等位基因的讀取深度 |
DP | 總讀取深度 |
FT | 過濾狀態,表明該基因型是否被「調用」 |
GL | 基因型的可能性 |
GQ | 條件基因型質量 |
GT | 基因型 |
MQ | RMS映射質量 |
PL | 以Phred值標準縮放的基因型可能性 |
PQ | 相位質量 |
PS | 相位集 |
相關條目
[編輯]- FASTA格式:用於表示基因組序列的格式。
- FASTQ格式:用於表示DNA測序讀數及其質量分數的格式。
- SAM格式:用於表示已對齊基因組序列的測序讀數。
- GVF格式:基於GFF3格式的基因組變異格式擴展。
- 全球基因組與健康聯盟(GA4GH):管理和擴展VCF格式的組織。[8]
參考文獻
[編輯]- ^ Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton; Marth, Gabor T.; Sherry, Stephen T.; McVean, Gilean; Durbin, Richard. The variant call format and VCFtools. Bioinformatics. 2011-08-01, 27 (15): 2156–2158. ISSN 1367-4803. PMC 3137218
. PMID 21653522. doi:10.1093/bioinformatics/btr330.
- ^ Ossola, Alexandra. The Race to Build a Search Engine for Your DNA. IEEE Spectrum. 20 March 2015 [22 March 2015].
- ^ Understanding VCF format | Human genetic variation. EMBL-EBI. [2023-11-10]. (原始內容存檔於2023-04-20) (英語).
- ^ Garrison, Erik; Kronenberg, Zev N.; Dawson, Eric T.; Pedersen, Brent S.; Prins, Pjotr. A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar. PLOS Computational Biology. 2022-05-31, 18 (5): e1009123. Bibcode:2022PLSCB..18E9123G. ISSN 1553-734X. PMC 9286226
. PMID 35639788. doi:10.1371/journal.pcbi.1009123
.
- ^ 5.0 5.1 VCF Specification (PDF). [30 July 2024].
- ^ GVCF - Genomic Variant Call Format. GATK. Broad Institute.
- ^ gVCF Files. Illumina, Inc. [2023-11-10].
- ^ HTS format specifications. samtools.github.io. [2022-02-22].