尝试抓取 PDF 文档(不成功)



我正在尝试为所有PDF文件抓取一个网站(obr.uk(,以便将它们保存到我的计算机上。为此,目前我目前正在使用"智取文档",这似乎不太顺利;它无法识别某些页面具有指向PDF文档的链接等。有没有另一种简单(ish(的解决方案?

我对抓取不太了解,但似乎找不到任何相当简单的解决方案。

您可以使用"网站下载器"工具,例如:

  • 分会场 : https://www.httrack.com/page/1/en/index.html
  • "wget" Linux 命令行

并按"文件类型"pdf过滤下载

您可以在此处找到工具列表:

  • https://www.makeuseof.com/tag/how-do-i-download-an-entire-website-for-offline-reading/
  • https://www.hongkiat.com/blog/windows-offline-browsers/

最新更新