小贝子编程

提供最佳可见内容提取器

本文关键字：提取最佳 web-scraping web-crawler screen-scraping html-content-extraction
更新时间 : 2023-09-08
英文 : Best visible content extractor available

所以我的应用程序需要来自给定URL的可见内容，例如文本部分，没有html，没有页眉或页脚数据。截至目前，我正在使用漂亮的汤和样管来获得相同的内容。但在极少数情况下，我没有获得足够的数据或正确的数据。所以想知道是否有其他竞争对手，编程语言不是障碍。

我建议直接xpath或css提取器进行内容提取，这两个选择器已经简单地parsel模块上实现。

对于一整套网络爬虫+内容提取器，scrapy将是我的首选。

如果您想提取以直观地选择要提取的 html 部分，我建议您portia.

希望有帮助。

最新更新

套接字的真正定义是什么?
尝试使用outlook自动从python脚本发送邮件
检查调用两个函数调用是否调用同一个函数?
如何从数组中选择指定索引以在交换情况下使用它
尽管在PHP中使用$_POST检查isset()，代码仍会执行
如何添加多个版本不兼容的弹性搜索数据源?
Vaultsharp ： System.AggregateException： '发生一个或多个错误。({"错误"：["路由'KV-v2/data'没有处理程序)
将excel公式转换为VBA宏
动画PNG图层和创建一个GIF在Javascript?
PendingIntent问题构建Android 12的React Native应用程序(FLAG_IMMUTABLE)
停止windows defender/Antivirus检测myapp
在Javascript中创建名为zip()的函数
c -我如何得到一个可用的int转换语句从一个空指针?
如何热切加载多态关系-在LARAVEL?
有没有可能使用python在纯Java中制作一个本机
在我的 laravel 应用程序中，日期以"0000-00-00"格式保存在 mysql 上
如何从IL指令生成c#代码
如何从两个不同的表中组合一个公共列内的值?
当使用索引而不是词引用SET成员时，无法使用REPLACE更新表中的MySQL SET数据类型 &g
旅游产品库存和数量
AWS Sagemaker输出如何读取文件与多个json对象分布在多行
根据类别级别进行排序
如何在chrome扩展中获得令牌?
在Julia中定义抽象类型的默认方法
无法启动新的Nextjs应用程序
nasm x86-64，超过值时单词比较出现问题
如何使用多处理池与列表?
不能使标签固定在顶部的导航栏部分后，点击
在.net中实现一个API服务，向Apple Wallet发送后台通知
如何在React中创建动态表单

提供最佳可见内容提取器

相关内容

最新更新

热门标签：