wget和PDFFileReader语言 - 无法读取格式错误的PDF文件



我正试图从希腊卫生部的每日报告中抓取COVID-19数据,这些报告以PDF格式发布在网上。我使用wget下载它们,然后使用PyPDF2抓取它们以获取数据:

import wget
import PyPDF2
wget.download('https://eody.gov.gr/wp-content/uploads/2020/09/covid-gr-daily-report-23-09-2020.pdf')
reader = PyPDF2.PdfFileReader('covid-gr-daily-report-23-09-2020.pdf')

但是它返回以下错误:

PyPDF2.utils.PdfReadError: Could not read malformed PDF file

保存在目录中的PDF文件也无法打开。

我如何保存PDF,使它不会变形?

您尝试下载的内容受Google reCAPTCHA保护。如果你看一下响应文本你会看到:

import requests
r = requests.get('https://eody.gov.gr/wp-content/uploads/2020/09/covid-gr-daily-report-23-09-2020.pdf')
print(r.text)

这是响应。你首先需要克服我不是一个机器人安全:

<html>
<head>
<META NAME="robots" CONTENT="noindex,nofollow">
<script src="/_Incapsula_Resource?SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3">
</script>
<body>
</body></html>

最新更新