我对Python比较陌生,并且正在努力解决以下问题:
我有一个大约 52,000 个词典的列表,其中包含 PDF 上的元数据(单独存储(。现在,我想将其中的 5,000 个 PDF 与其相应的元数据词典相匹配,但我不确定如何做到这一点。
元数据:
[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]
PDF文件名对应于"代码"值(即文件名为5346,8372,3475_c,0294,5837_c等,始终为三个,四个或五个数字或三个,四个或五个数字,并辅以_c(。有没有办法将 PDF 与元数据词典列表中的正确词典进行匹配,使用 PDF 的文件名进行匹配?
其他解决方案也非常受欢迎!
编辑:我的目标是创建一个文本语料库,其中每个条目都是一个文本文档(即一个PDF的内容(及其相应的文本元数据(即PDF元数据(。
textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)
来自Textacy的文档:"[元数据]流必须与texts
或docs
完全一致,否则元数据将被错误分配。更具体地说,metadatas
中的第一项将被分配给texts
或docs
中的第一个项目,依此类推。这就是为什么我想将 PDF 与正确的元数据相匹配。
dict((x['Code'],x) for x in <YOUR_LIST>)