Python/Dill序列化哈希取决于导入的包

考虑以下代码：

from os.path import join
import dill
from tempfile import TemporaryDirectory
import hashlib
def filehash(path):
with open(path, 'rb') as f:
return hashlib.sha256(f.read()).hexdigest()
def func(a,b):
return a + b

with TemporaryDirectory() as td:
temp = join(td, "func.tmp")
with open(temp, "wb") as f:
dill.dump(func, f)
print(filehash(temp))

这将一个简单的函数func()序列化到磁盘，然后打印生成的文件的哈希。

现在，在第一行之前添加一些不会使用的包的导入语句，例如import numpy，然后再次执行整个程序。现在文件哈希不同了。

有人能告诉我为什么会这样吗？

当Dill pickle一个函数时，它必须保存该函数可以访问的范围。因此，当您添加导入时，保存的内容也会发生变化，因为它包含了被导入更改的模块范围。

如果你不想这样，我建议你把要学习的函数放在自己的模块中。这样他们的模块范围就不会包含任何他们不需要访问的内容。

我还建议不要依赖于相同的代码来产生相同的dill。

相关内容

最新更新

热门标签：