小贝子编程

Crawler4j、Jsoup 和 JavaScript:提取使用 JavaScript 修改的属性值

本文关键字：JavaScript 修改属性提取 Jsoup Crawler4j javascript css web-crawler jsoup crawler4j
更新时间 : 2023-09-12
英文 : Crawler4j, Jsoup and JavaScript: extract attribute values modified with JavaScript

我正在使用Crawler4j和Jsoup来抓取网站，它适用于HTML文本，但是有一些重要的内容，默认值在CSS中硬编码，然后用JavaScript动态设置。例如，我有我需要宽度值，它在 CSS 中被硬编码为 10px，但在 JavaScript 中修改为 5px。

有没有办法在不使用其他爬网程序的情况下获取此值？还是一个简单的替代方案？我已经有很多代码，所以如果有可能使用 Crawler4j 来重写所有代码，我不想重写所有内容。

我希望我的问题足够清楚，提前感谢您的帮助！

这在crawler4j和jsoup中都是不可能的。它们都只处理静态 HTML 内容。

在官方 GitHub 存储库中有几个与动态 JavaScript 执行相关的未决问题：#49、#197 和 #220。

为了实现你的目标，你需要构建一个基于Selenium，CasperJS和/或PhantomJS的堆栈，然后可用于高级爬网，包括JavaScript执行。

相关内容