文件解压缩时使用比从1000genomes网站。广州

问题描述:

我已经下载了1000个基因组.vcf文件大得多(60X):文件解压缩时使用比从1000genomes网站。广州

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz 

我试图使用gzip解压缩这些文件,但它们解压缩到一个比原件大得多。例如,第一个文件(对于染色体1)是1.1gb的压缩文件,但扩展到了65.78gb。

认为这可能是gzip的问题,我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat来解压文件。但是,在这两种情况下,文件大小都相当巨大。

我认为这不可能是正确的,但不知道为什么是这种情况。有没有人遇到类似的东西?

+0

嗯......我认为我们必须明白,一个'compressed'文件比原来的'uncompressed'文件的尺寸更小......我不认为这是一个异常,实际上,它是很正常,至少在这个领域...... – Hackerman

+0

你从哪里得到原始文件大小? FTP站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗? –

+0

我知道一个压缩文件会更小,但是可能会减少大小吗?文件的开始和结尾看起来应该如此。 – spiral01

我检出了染色体1文件,它很好。我认为其余的都是。是的,高度冗余的数据可以压缩那么多。它只能压缩到60:1,其中gzip能够压缩1032:1。

将流分解为单独压缩的64K未压缩数据片段,每个都用于索引。 (关联的“tbi”文件包含大gzip文件中每个片段的位置。)如果它们只是将它压缩为单个流,或者索引点相距较远,则它将压缩大约68:1。

+0

感谢您的答案马克。原因在于大量差异的原因是大多数数据由等位基因表示组成:0 | 0或1 | 0,每列中没有其他信息。因此,大部分文件由0 | 0的长行组成。 – spiral01