在计算运行的校验和时需要澄清。
假设我有这样的数据。
data = 'helloworld'
假设块大小为5,我需要计算运行校验和。
>>> zlib.adler32('hello')
103547413
>>> zlib.adler32('ellow')
105316900
根据Python文档(Python版本2.7.2)
zlib.adler32(data[, value])
"计算数据的Adler-32校验和与CRC32一样可靠,但是可以更快地计算。)如果值存在时,它被用作校验和的起始值;否则,将使用固定的默认值。这允许计算在几个输入的串联上运行校验和。"
但当我提供这样的东西时,
>>> zlib.adler32('ellow', zlib.adler32('hello'))
383190072
输出完全不同。
我尝试创建一个自定义函数来生成rsync算法中定义的滚动校验和。
def weakchecksum(data):
a = 1
b = 0
for char in data:
a += (ord(char)) % MOD_VALUE
b += a % MOD_VALUE
return (b << 16) | a
def rolling(checksum, removed, added, block_size):
a = checksum
b = (a >> 16) & 0xffff
a &= 0xffff
a = (a - ord(removed) + ord(added)) % MOD_VALUE
b = (b - (block_size * ord(removed)) + a) % MOD_VALUE
return (b << 16) | a
以下是我从运行这些函数中获得的值
Weak for hello: 103547413
Rolling for ellow: 105382436
Weak for ellow: 105316900
正如您所看到的,我的滚动校验和和和python的实现在价值方面有一些巨大的差异。
我在计算滚动校验和时哪里出错了?我是否正确地使用了python的adler32函数的滚动属性?
adler32()
函数不提供"滚动"。文档正确地使用了单词"running"(而不是"rolling"),这意味着它可以分块计算adler32,而不是一次计算所有adler32。您需要编写自己的代码来计算"滚动"adler32值,该值将是数据上滑动窗口的adler32。
在您的方法"滚动"中,
b = (b - (block_size * ord(removed)) + a) % MOD_VALUE
应该是
b = (b - (block_size * ord(removed)) + a - 1) % MOD_VALUE
根据维基百科对adler32算法的解释,我们可以看到:
A = 1 + D1 + D2 + ... + Dn (mod 65521)
B = (1 + D1) + (1 + D1 + D2) + ... + (1 + D1 + D2 + ... + Dn) (mod 65521)
= n×D1 + (n−1)×D2 + (n−2)×D3 + ... + Dn + n (mod 65521)
Adler-32(D) = B × 65536 + A
当我们滚动校验和时,我们将得到以下方程:
A1 = (1 + D2 + D3 + … + Dn + Dn+1)(mod 65521)
= (1 + D1 + D2 + D3 + … + Dn) – D1 + Dn+1(mod 65521)
= A – D1 + Dn+1(mod 65521)
B1 = (1 + D2) + (1 + D2 + D3) + … + (1 + D2 + D3 + … + Dn + Dn+1)(mod 65521)
= (1 + D1) – D1 – 1 + (1 + D1 + D2) – D1 + ... +(1 + D1 + D2 + … + Dn) – D1 + (1 + D1 + D2 + … + Dn + Dn+1) – D1(mod 65521)
= B – nD1 – 1 + A1 + D1 – D1(mod 65521)
= B – nD1 + A1 – 1(mod 65521)
顺便说一句,你的def-rolling()是正确的,至少对于Python来说,模结果的符号有除数的符号。它可能在其他语言中不起作用,例如在C中,%的结果的符号要么是被除数的符号,要么是实现定义的。
你可以通过考虑每一步离模65521有多远来提高算法的效率,或者用if和65521的加法或减法来代替%,或者使用足够大的数据类型来让它运行一段时间,并计算出你可以在和上不经常使用%来避免溢出。同样,要小心负股息的%。
这是工作函数。请注意MOD的计算步骤。
def myadler32(data):
a = 1
b = 0
for c in data:
a += c
b += a
a %= MOD_ADLER
b %= MOD_ADLER
return b<<16 | a
我相信您在测试中计算错了adler32值:
>>> import zlib
>>> zlib.adler32("helloworld")
389415997
>>> zlib.adler32("world",zlib.adler32("hello"))
389415997