给定这样一个页面,我正试图用ruby网络爬虫提取所有答案文本。
我正在使用nokogiri和search('div[@class="answer_content"]').inner_text
来访问答案,但我似乎无法访问所有文本,即使事实上我已经登录。大约200个单词后,我会收到消息"注册或登录以阅读完整内容"。
另外,这个div类是正确使用的吗?
在我看来,您需要从爬网程序中验证自己。我几周前就做过了。我使用了一个名为Tamper Data
的firefox扩展,它允许我查看浏览器和服务器之间的请求。在我的案例中,身份验证是由会话id处理的;我只需要把它拿回来,然后把它传递给我向服务器提出的每个请求。
但在您的情况下,身份验证可能会以不同的方式进行,您必须亲自查看。不管怎样,如果不够清楚,我可以详细说明。