小贝子编程

处理"Sign up or log in to read full content"的网络爬虫

本文关键字：content full 网络爬虫 read in up Sign or log 处理 html ruby web-crawler nokogiri
更新时间 : 2023-08-27
英文 : Web crawler dealing with "Sign up or log in to read full content"

给定这样一个页面，我正试图用ruby网络爬虫提取所有答案文本。

我正在使用nokogiri和search('div[@class="answer_content"]').inner_text来访问答案，但我似乎无法访问所有文本，即使事实上我已经登录。大约200个单词后，我会收到消息"注册或登录以阅读完整内容"。

另外，这个div类是正确使用的吗？

在我看来，您需要从爬网程序中验证自己。我几周前就做过了。我使用了一个名为Tamper Data的firefox扩展，它允许我查看浏览器和服务器之间的请求。在我的案例中，身份验证是由会话id处理的；我只需要把它拿回来，然后把它传递给我向服务器提出的每个请求。

但在您的情况下，身份验证可能会以不同的方式进行，您必须亲自查看。不管怎样，如果不够清楚，我可以详细说明。

相关内容