如何制作一个网络爬虫,它访问用户查询信息作为搜索结果获得的链接?比如说,如果用户对某个主题给出一些查询,爬虫必须只访问一些顶部链接。谁能告诉我如何做到这一点?
Google的自定义搜索API可能是您最好的选择。 它是免费的,旨在以编程方式与之交互。
但是,如果您需要与一个晦涩难懂的网站进行交互,或者需要细粒度的控制,我已经用 HtmlUnit 编写了几个爬虫。 这有点啰嗦,但绝对有效。
如何制作一个网络爬虫,它访问用户查询信息作为搜索结果获得的链接?比如说,如果用户对某个主题给出一些查询,爬虫必须只访问一些顶部链接。谁能告诉我如何做到这一点?
Google的自定义搜索API可能是您最好的选择。 它是免费的,旨在以编程方式与之交互。
但是,如果您需要与一个晦涩难懂的网站进行交互,或者需要细粒度的控制,我已经用 HtmlUnit 编写了几个爬虫。 这有点啰嗦,但绝对有效。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium