我正试图抓取此网站
https://www.neds.com.au/sports/esports
我正在使用scratch来做这件事,但我所做的任何尝试都只能抓取预加载页面。我只是用错工具了吗?
无论您最终使用什么工具,它都必须监控DOM的更改,并且只有在DOM稳定时才开始实际抓取(内容在任意时间内不再更改(。
其中一个工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行刮擦;稳定性超时";选项
来自文档:Stability Timeout-当在指定的时间(毫秒(内没有更多DOM更改时,考虑加载并准备刮取页面。仅适用于html资源。用于绕过预加载程序内容。
免责声明:我是扩展作者。