我构建了一个小工具,可以使用DOMParser从web浏览器中的网页中抓取元数据。这对很多网站来说都很有效,但有些页面,比如推特页面,在附加的JavaScript加载数据之前,不会添加元数据。
我知道我可以设置某种运行Puppeter的代理服务器,但我正在寻找一种可以直接在浏览器中运行的解决方案。
Protractor是一个非常好的刮削工具。它主要是一种端到端的测试工具,适用于各种网站(包括SPAs(,但如果它不仅仅是花哨的网络抓取,那么端到端测试是什么呢?
我过去用过Protractor刮过几十个网站,它工作得很完美。很容易调度,可以运行headless Chrome或phantomJS,这样你甚至看不到页面加载。