Crawler4j、Jsoup 和 JavaScript:提取使用 JavaScript 修改的属性值



我正在使用Crawler4j和Jsoup来抓取网站,它适用于HTML文本,但是有一些重要的内容,默认值在CSS中硬编码,然后用JavaScript动态设置。例如,我有我需要宽度值,它在 CSS 中被硬编码为 10px,但在 JavaScript 中修改为 5px。

有没有办法在不使用其他爬网程序的情况下获取此值?还是一个简单的替代方案?我已经有很多代码,所以如果有可能使用 Crawler4j 来重写所有代码,我不想重写所有内容。

我希望我的问题足够清楚,提前感谢您的帮助!

这在crawler4jjsoup中都是不可能的。它们都只处理静态 HTML 内容。

在官方 GitHub 存储库中有几个与动态 JavaScript 执行相关的未决问题:#49、#197 和 #220。

为了实现你的目标,你需要构建一个基于Selenium,CasperJS和/或PhantomJS的堆栈,然后可用于高级爬网,包括JavaScript执行。

相关内容

  • 没有找到相关文章

最新更新