小贝子编程

尝试抓取 PDF 文档(不成功)

本文关键字：不成功文档 PDF 抓取 pdf web-scraping screen-scraping scrapely
更新时间 : 2023-09-14
英文 : Attempting to scrape for PDF documents (unsuccessfully)

我正在尝试为所有PDF文件抓取一个网站(obr.uk(，以便将它们保存到我的计算机上。为此，目前我目前正在使用"智取文档"，这似乎不太顺利;它无法识别某些页面具有指向PDF文档的链接等。有没有另一种简单(ish(的解决方案？

我对抓取不太了解，但似乎找不到任何相当简单的解决方案。

您可以使用"网站下载器"工具，例如：

分会场： https://www.httrack.com/page/1/en/index.html
"wget" Linux 命令行

并按"文件类型"pdf过滤下载

您可以在此处找到工具列表：

https://www.makeuseof.com/tag/how-do-i-download-an-entire-website-for-offline-reading/
https://www.hongkiat.com/blog/windows-offline-browsers/

最新更新

Python 中的 OOP 层次结构
我如何动画下拉菜单的高度使用顺风css
无法从字符串比较失败的字符串中删除"—"
无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发
yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"
运行我的代码时出现错误:未知的自定义元素
在Selenium 4中使用Behat和Mink Selenium2驱动程序为Microsoft Edge浏览器运行测试
宽度未知的可变列数
我必须在.env文件中存储哨兵公钥吗?
Mongodb子文档没有自动生成对象id Typegoose/ mongoose
类型中构造函数的参数 0 需要找不到类型为"org.hibernate.SessionFactory"的 Bean
根据r中的日期和小时每隔15分钟聚合数据
如何解决关于Optuna存储的错误?
c语言中OO继承的混叠问题
launchWebAuthFlow窗口在chrome扩展关闭后保持打开
使用非初始结构变量作为参数调用函数不会产生警告
Pytorch - mat1和mat2形状不能相乘(3328x13和9216x4096)
我如何得到一个节点超时的内部id使用符号没有硬编码查找索引?
spring引导应用程序读取另一个jar的应用程序配置值吗?
如何在main.js中导入javascript库以在整个vue应用程序中获得全局可用性?

尝试抓取 PDF 文档(不成功)

相关内容

最新更新

热门标签：