跳转到内容

User:Angus Cheng/VCF

维基百科,自由的百科全书
變異檢測格式
扩展名
.vcf
开发者千人基因組計劃
最新版本
4.5
2024年6月28日,​9個月前​(2024-06-28
格式类型生物資訊學
扩展自制表符分隔值
扩展为gVCF
自由格式
网站samtools.github.io/hts-specs/VCFv4.5.pdf

基因變異儲存格式(暫譯)(Variant Call Format,簡稱VCF)是一種標準文本文件格式,用於在生物資訊學中儲存基因序列DNA序列變異。該格式於2010年為千人基因組計劃而開發,自此以來被其他大型基因型分型DNA定序項目廣泛使用。[1][2] 由於其相對簡單和可擴展性,VCF成為變異檢測程序的常見輸出格式。[3][4]

VCF格式的當前標準版本為4.5。[5] 除了標準VCF外,還有基於它擴展的基因組VCFgenomic VCF,簡稱gVCF),包括有關與參考序列匹配的「區塊」及其品質的額外資訊。[6][7]

範例

[编辑]
##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3
BCF v VCF
顯示二進制BCF與VCF格式的區別

VCF文件的標頭

[编辑]

標頭是文件的開頭,包含描述文件主體的元數據,每行以###開頭。推薦的關鍵詞包括fileformatfileDatereference

VCF的欄位

[编辑]

VCF主體部分跟隨標頭,以制表符分隔為8個必需欄位和無限數量的可選欄位記錄其他資訊。

名稱 簡介
1 CHROM 發生變異的序列名稱(通常為染色體)
2 POS 變異在序列中的位置(從1開始)
3 ID 變異的標識符,例如dbSNP英语dbSNP的rs標識符;如果未知,則為「.」。多個標識符用分號分隔,無空格。
4 REF 在給定位點參考序列上的參考鹼基(或在插入缺失變異英语Indel情況下的鹼基序列)。
5 ALT 在此位置的備選等位基因列表。
6 QUAL 與這些等位基因推斷相關的質量分數。
7 FILTER 標誌變異是否通過或未通過某些過濾標準,通過的標記為「PASS」。
8 INFO 可擴展的鍵值對列表(欄位),描述變異信息。多個欄位用分號分隔,格式為:<鍵>=<值>
9 FORMAT 描述樣本的欄位列表(可選)。請參考以下示例。
+ SAMPLEs 每個樣本的數據,依據FORMAT欄位描述的格式記錄值。

常見的INFO欄位

[编辑]

INFO欄位允許定義任意鍵值,但以下子欄位是預留的(雖然是可選的):[5]

名稱 簡介
AA 祖先等位基因
AC 基因型中的每個ALT等位基因的等位基因計數
AF 每個ALT等位基因的等位基因頻率(應從原始數據估算)
AN 基因型中所有等位基因的總數
BQ 此位置的RMS鹼基質量
CIGAR 描述如何將ALT等位基因與參考等位基因對齊的CIGAR字符串
DB 表示此變異存在於dbSNP數據庫中
DP 所有樣本的總深度,例如:DP=154
END 使用符號等位基因時,此記錄所描述變異的結束位置
H2 表示該記錄屬於HapMap2數據
H3 表示該記錄屬於HapMap3數據
MQ RMS映射質量,例如:MQ=52
NS 有數據的樣本數
SB 此位置的鏈偏差
SOMATIC 表明記錄為體細胞突變(通常用於癌症基因組學)
VALIDATED 經過後續實驗驗證
1000G 表明此記錄屬於千人基因組計劃

常見的FORMAT欄位

[编辑]
名稱 簡介
AD 每個等位基因的讀取深度
ADF 正鏈上每個等位基因的讀取深度
ADR 負鏈上每個等位基因的讀取深度
DP 總讀取深度
FT 過濾狀態,表明該基因型是否被「調用」
GL 基因型的可能性
GQ 條件基因型質量
GT 基因型
MQ RMS映射質量
PL 以Phred值標準縮放的基因型可能性
PQ 相位質量
PS 相位集

相關條目

[编辑]

參考文獻

[编辑]
  1. ^ Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton; Marth, Gabor T.; Sherry, Stephen T.; McVean, Gilean; Durbin, Richard. The variant call format and VCFtools. Bioinformatics. 2011-08-01, 27 (15): 2156–2158. ISSN 1367-4803. PMC 3137218可免费查阅. PMID 21653522. doi:10.1093/bioinformatics/btr330. 
  2. ^ Ossola, Alexandra. The Race to Build a Search Engine for Your DNA. IEEE Spectrum. 20 March 2015 [22 March 2015]. 
  3. ^ Understanding VCF format | Human genetic variation. EMBL-EBI. [2023-11-10]. (原始内容存档于2023-04-20) (英语). 
  4. ^ Garrison, Erik; Kronenberg, Zev N.; Dawson, Eric T.; Pedersen, Brent S.; Prins, Pjotr. A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar. PLOS Computational Biology. 2022-05-31, 18 (5): e1009123. Bibcode:2022PLSCB..18E9123G. ISSN 1553-734X. PMC 9286226可免费查阅. PMID 35639788. doi:10.1371/journal.pcbi.1009123可免费查阅. 
  5. ^ 5.0 5.1 VCF Specification (PDF). [30 July 2024]. 
  6. ^ GVCF - Genomic Variant Call Format. GATK. Broad Institute. 
  7. ^ gVCF Files. Illumina, Inc. [2023-11-10]. 
  8. ^ HTS format specifications. samtools.github.io. [2022-02-22]. 

外部連結

[编辑]