生物信息学压缩核苷酸序列



推荐的压缩算法是什么?Xz, tar, gz, tar。Bz2等)用于压缩由快速核苷酸序列组成的数据集?

对于这样的数据,推荐的压缩机制是什么?

  1. 基于字典的压缩
  2. 基于自适应字典的压缩
  3. 基于LZW算法的压缩

我看到gzip最常用,所以我推荐gzip,正如CJR在评论中提到的。这是与协作器最兼容的选项,尽管不是最有效的(取决于您对效率的定义)。

在某些情况下,合作者和您可以安装专门的压缩工具,可能值得研究更有效的工具,例如,请参阅这篇文章,它使用几个不同的度量(特别是图1)比较了许多工具:

Kirill Kryukov, Mahoko Takahashi Ueda, So Nakagawa, Tadashi Imanishi,序列压缩基准(SCB)数据库-对fasta格式序列的无参考压缩器的综合评价,GigaScience, vol . 9, Issue 7, July 2020, giaa072, https://doi.org/10.1093/gigascience/giaa072: https://academic.oup.com/gigascience/article/9/7/giaa072/5867695

相关内容

  • 没有找到相关文章

最新更新