循环浏览子目录并删除重复md5哈希的文件



我有一个目录,里面有很多子目录,这些子目录中有txt文件。对于每个子目录,我想获得相应子目录中每个文件的md5哈希,并删除该子目录[Python]中任何重复的md5散列。

我需要帮助编写一个函数,该函数接收目录并返回没有txt文件的目录,这些文件具有重复的md5哈希值。

您可以使用os.listdir列出目录

您可以使用os.path.join(BASEDIR,filename)获取结果的路径

可以使用open(filename,"rb")打开一个文件进行读取(二进制是aok(

可以使用filehandle.read从文件中获取字节

可以使用hashlib.md5生成md5的(以及其他方法(

你可以使用列表/集合/字典来记录你已经看到的内容(设置或dict会更快(

你看到的任何东西都会使用os.remove来删除

这是一种可以用来解决问题的算法,还有很多其他方法可以解决这个

最新更新