我需要比较两组RRD文件(数百万),它们应该是相同的,但可能不是。如何尽可能快地扫描它们?这足以让我获得产生的信息
rrdtool info
命令。目前在我的磁盘上,此操作需要一天时间。
更新:
我用Python开发。可能采用RRD二进制文件的前几个结构并为其生成MD5SUM可以缩小我需要与rrdtool信息完全比较的文件数量。问题是如何找到要从文件中读取多少字节才能使检查有价值。
看看rrd_format.h…关于rrd文件结构的有趣部分都在文件的开头。
使用rrdtool-info的python绑定而不是调用命令(如果您还没有这样做)应该会加快速度。
另一方面,如果您有两个rrd文件,它们使用相同的参数创建,但随后使用不同的值更新,则仍然可能具有相同的头。因此,仅仅比较标题可能会产生误导,除非你没有提到一些额外的信息,比如唯一的DS名称或类似的信息。