在给定范围内找到最可压缩的向量?

我已经将我正在处理的压缩问题减少到以下内容：

作为输入，您将获得两个浮点值的 n 长度向量：

float64 L1, L2, ..., Ln;
float64 U1, U2, ..., Un;

这样对于所有我

0.0 <= Li <= Ui <= 1.0

(顺便说一下，n 很大：~10^9)

该算法将 L 和 U 作为输入，并使用它们来生成程序。

执行时，生成的程序输出一个 n 长度的向量 X：

float64 X1, X2, ..., Xn;

这样对于所有我：

L1 <= Xi <= Ui

生成的程序可以输出任何符合这些边界的 X。

例如，生成的程序可以简单地将L存储为数组并输出它。 (请注意，这将需要 64n 位空间来存储 L，然后程序需要一点额外的空间来输出它)

目标是生成的程序(包括数据)尽可能小，给定L和U。

例如，假设 L 的每个元素都小于 0.3，U 的每个元素都大于 0.4，生成的程序可能只是：

for i in 1 to n
output 0.35

这将是很小的。

任何人都可以提出一个策略、算法或架构来解决这个问题吗？

这种简单的启发式方法非常快，如果边界允许非常好的压缩，应该提供非常好的压缩：

在所有候选值上准备一个任意(虚拟)二叉搜索树。float64与signed int64s 共享排序顺序，因此您可以任意首选(更接近根)具有更多尾随零的值。

对于上面提到的树，这意味着

对于每对边界
在指定范围内查找有效位数尽可能少的(唯一)数字
。也就是说，找到两个边界不同的第一个位;将其设置为1并将所有后续位设置为0;如果设置为1的位是符号位，请改为将其设置为0。

然后，您可以将其提供给deflateing库进行压缩(并构建自解压存档)。

如果您分析数据并构建不同的二叉搜索树，则可能会实现更好的压缩。由于数据集非常大并且以数据流的形式到达，因此可能不可行，但这是一种启发式方法：

您可以缓存排序顺序并仅从中删除排序顺序，甚至同时缓存运行总计(或从重新计算运行总计切换到在运行时缓存运行总计)，而不是重新计算排序顺序。这不会改变结果，只会改善运行时间。

相关内容