文件解压缩时使用比从1000genomes网站。广州

问题描述：

我已经下载了1000个基因组.vcf文件大得多（60X）：文件解压缩时使用比从1000genomes网站。广州

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我试图使用gzip解压缩这些文件，但它们解压缩到一个比原件大得多。例如，第一个文件（对于染色体1）是1.1gb的压缩文件，但扩展到了65.78gb。

认为这可能是gzip的问题，我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff，另一种是使用zcat来解压文件。但是，在这两种情况下，文件大小都相当巨大。

我认为这不可能是正确的，但不知道为什么是这种情况。有没有人遇到类似的东西？

嗯......我认为我们必须明白，一个'compressed'文件比原来的'uncompressed'文件的尺寸更小......我不认为这是一个异常，实际上，它是很正常，至少在这个领域...... – Hackerman

你从哪里得到原始文件大小？ FTP站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗？ –

我知道一个压缩文件会更小，但是可能会减少大小吗？文件的开始和结尾看起来应该如此。 – spiral01

答

我检出了染色体1文件，它很好。我认为其余的都是。是的，高度冗余的数据可以压缩那么多。它只能压缩到60：1，其中gzip能够压缩1032：1。

将流分解为单独压缩的64K未压缩数据片段，每个都用于索引。（关联的“tbi”文件包含大gzip文件中每个片段的位置。）如果它们只是将它压缩为单个流，或者索引点相距较远，则它将压缩大约68：1。

感谢您的答案马克。原因在于大量差异的原因是大多数数据由等位基因表示组成：0 | 0或1 | 0，每列中没有其他信息。因此，大部分文件由0 | 0的长行组成。 – spiral01