VCF(Variant Call Format)文件是一种常用于存储基因组变异数据的文件格式。

bgzip和tabix是两款常用的工具,分别用于压缩VCF文件和为其建立索引。

1.使用bgzip

首先是要下载bgzip,但bgzip通常与tabix一起作为samtools软件包的一部分提供。可以从samtools的官方网站或源代码仓库下载并安装。

虽然我下载了samtools,但我发现我这里没有bgzip和tabix,所以需要自行下载。

#下载bgzip
conda install bgzip

#下载tabix
conda install tabix

但是很奇怪,我数据下载下来,发现它已经进行压缩了,我以为是已经进行过bgzip压缩了,因为普通的gz压缩和bgzip压缩后缀都是.gz,所以会有错觉。因此我收到了一条报错信息。

果不其然,它是gzip压缩,所以解决办法是:

解压后,重新使用bgzip压缩。

#使用gunzip解压
gunzip ENCFF534YXW.vcf.gz

使用bgzip压缩:

bgzip ENCFF534YXW.vcf

2.使用tabix

然后使用tabix将.vcf.gz文件转换为.tbi后缀的索引文件:

tabix -p vcf ENCFF534YXW.vcf.gz

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐