在抓取网页时,如何获得HTML代码而不是源代码



当前我正在使用phantom JS并返回页面。内容,但是这会返回源代码,而不是当前页面的HTML。

网站加载,然后加载产品列表。产品列表不是源代码的一部分,在请求页面时不会返回。所容纳之物显然,这是Phantom JS的常见问题。

是否有人对返回当前页面HTML的其他方法/包有任何建议。

我的项目是一个C#窗体项目。

非常感谢

尝试selenium webdriver并使用WebDriverWait捕获加载的产品列表,这是最简单的选项。。。另一个选项尝试对HTTP请求进行反向工程,看看是否可以在后台模拟JSON文件请求。

WebClient WC = new WebClient();
string JSON = WC.DownloadString(url);
Object onject = JsonConvert.DeserializeObject<List<JJs.ITEMS>>(JSON);

最后,在网络蚂蚁的XHR选项卡中记录的请求返回了网页用于生成产品列表的数据的JSON文件

相关内容

  • 没有找到相关文章

最新更新