如何使网络爬虫访问链接作为搜索结果获得的用户查询信息



如何制作一个网络爬虫,它访问用户查询信息作为搜索结果获得的链接?比如说,如果用户对某个主题给出一些查询,爬虫必须只访问一些顶部链接。谁能告诉我如何做到这一点?

Google的自定义搜索API可能是您最好的选择。 它是免费的,旨在以编程方式与之交互。

但是,如果您需要与一个晦涩难懂的网站进行交互,或者需要细粒度的控制,我已经用 HtmlUnit 编写了几个爬虫。 这有点啰嗦,但绝对有效。

最新更新