如何刮<html>...</html>里面另一个<html>...</html> 与木偶师



好吧,所以我试图用node.js木偶师抓取的页面是这样的结构

<html lang = "en">
....
<html xmlns="https://www.w3.org/1999/xhtml" lang="en">
<a href = "link I'm trying to go to">Go to link</a>
</html>
</html>

我试图通过选择器和XPath单击。两者都不起作用,我三重检查了一下两者都是对的。我觉得它与这个嵌入式 html 有关,我不知道如何处理它?谁能帮忙?

其他评论指出,iframe内的内容无法从父文档访问。我再次检查了代码,结果发现它实际上是这样的结构:

<html lang = "en">
....
<iframe src = "url">
<html xmlns="https://www.w3.org/1999/xhtml" lang="en">
<a href = "link I'm trying to go to">Go to link</a>
</html>
</iframe>
</html>

所以我所要做的就是page.goto(url(,然后我可以像往常一样抓取。谢谢大家!

最新更新