有没有一种方法可以安全地从浏览器中抓取单页应用程序(SPA)



我构建了一个小工具,可以使用DOMParser从web浏览器中的网页中抓取元数据。这对很多网站来说都很有效,但有些页面,比如推特页面,在附加的JavaScript加载数据之前,不会添加元数据。

我知道我可以设置某种运行Puppeter的代理服务器,但我正在寻找一种可以直接在浏览器中运行的解决方案

Protractor是一个非常好的刮削工具。它主要是一种端到端的测试工具,适用于各种网站(包括SPAs(,但如果它不仅仅是花哨的网络抓取,那么端到端测试是什么呢?

我过去用过Protractor刮过几十个网站,它工作得很完美。很容易调度,可以运行headless Chrome或phantomJS,这样你甚至看不到页面加载。

相关内容

  • 没有找到相关文章

最新更新