为收到的PDF文档添加唯一的文件ID



我需要跟踪接收的PDF文档。我可以在数据库中保存文档列表,但有时文档会被重命名或移动,所以PDF的文件路径并不总是可靠的。对于其他文档类型,我有时会添加一个唯一的ID作为元数据,这样我就可以识别出被移动和/或重命名的文件与以前看到的文件相同。我正在寻找一个能在Windows 10上运行的解决方案,我更喜欢基于Node.js的解决方案。尽管Python也是可以接受的。这些文档来自许多不同的来源,我无法要求文档的来源添加唯一的标识符。我已经以这种方式将IPTCinfo用于媒体文件,但(据我所知(这不能用于PDF。我正在寻找类似的东西,可以用于PDF。

使用md5sum:

import os 
def check_md5sum(file_path):
md5sum = os.system(f'md5sum {file_path}')
return md5sum

最新更新