我正在使用Crawler4j和Jsoup来抓取网站,它适用于HTML文本,但是有一些重要的内容,默认值在CSS中硬编码,然后用JavaScript动态设置。例如,我有我需要宽度值,它在 CSS 中被硬编码为 10px,但在 JavaScript 中修改为 5px。
有没有办法在不使用其他爬网程序的情况下获取此值?还是一个简单的替代方案?我已经有很多代码,所以如果有可能使用 Crawler4j 来重写所有代码,我不想重写所有内容。
我希望我的问题足够清楚,提前感谢您的帮助!
这在crawler4j
和jsoup
中都是不可能的。它们都只处理静态 HTML 内容。
在官方 GitHub 存储库中有几个与动态 JavaScript 执行相关的未决问题:#49、#197 和 #220。
为了实现你的目标,你需要构建一个基于Selenium,CasperJS和/或PhantomJS的堆栈,然后可用于高级爬网,包括JavaScript执行。