我有一个目录,里面有很多子目录,这些子目录中有txt文件。对于每个子目录,我想获得相应子目录中每个文件的md5哈希,并删除该子目录[Python]中任何重复的md5散列。
我需要帮助编写一个函数,该函数接收目录并返回没有txt文件的目录,这些文件具有重复的md5哈希值。
您可以使用os.listdir
列出目录
您可以使用os.path.join(BASEDIR,filename)
获取结果的路径
可以使用open(filename,"rb")
打开一个文件进行读取(二进制是aok(
可以使用filehandle.read
从文件中获取字节
可以使用hashlib.md5
生成md5的(以及其他方法(
你可以使用列表/集合/字典来记录你已经看到的内容(设置或dict会更快(
你看到的任何东西都会使用os.remove
来删除
这是一种可以用来解决问题的算法,还有很多其他方法可以解决这个