推荐的压缩算法是什么?Xz, tar, gz, tar。Bz2等)用于压缩由快速核苷酸序列组成的数据集?
对于这样的数据,推荐的压缩机制是什么?
- 基于字典的压缩
- 基于自适应字典的压缩 基于LZW算法的压缩
我看到gzip
最常用,所以我推荐gzip
,正如CJR在评论中提到的。这是与协作器最兼容的选项,尽管不是最有效的(取决于您对效率的定义)。
在某些情况下,合作者和您可以安装专门的压缩工具,可能值得研究更有效的工具,例如,请参阅这篇文章,它使用几个不同的度量(特别是图1)比较了许多工具:
Kirill Kryukov, Mahoko Takahashi Ueda, So Nakagawa, Tadashi Imanishi,序列压缩基准(SCB)数据库-对fasta格式序列的无参考压缩器的综合评价,GigaScience, vol . 9, Issue 7, July 2020, giaa072, https://doi.org/10.1093/gigascience/giaa072: https://academic.oup.com/gigascience/article/9/7/giaa072/5867695