Python:如何将字典值与文件名匹配?



我对Python比较陌生,并且正在努力解决以下问题:

我有一个大约 52,000 个词典的列表,其中包含 PDF 上的元数据(单独存储(。现在,我想将其中的 5,000 个 PDF 与其相应的元数据词典相匹配,但我不确定如何做到这一点。

元数据:

[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]

PDF文件名对应于"代码"值(即文件名为5346,8372,3475_c,0294,5837_c等,始终为三个,四个或五个数字或三个,四个或五个数字,并辅以_c(。有没有办法将 PDF 与元数据词典列表中的正确词典进行匹配,使用 PDF 的文件名进行匹配?

其他解决方案也非常受欢迎!

编辑:我的目标是创建一个文本语料库,其中每个条目都是一个文本文档(即一个PDF的内容(及其相应的文本元数据(即PDF元数据(。

textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)

来自Textacy的文档:"[元数据]流必须与textsdocs完全一致,否则元数据将被错误分配。更具体地说,metadatas中的第一项将被分配给textsdocs中的第一个项目,依此类推。这就是为什么我想将 PDF 与正确的元数据相匹配。

dict((x['Code'],x) for x in <YOUR_LIST>)

相关内容

  • 没有找到相关文章

最新更新