如何在apify中使用带有基本爬虫的代理

  • 本文关键字:爬虫 代理 apify apify
  • 更新时间 :
  • 英文 :


我在apify中使用基本的爬虫,我如何使用代理呢?在基本爬虫中没有代理选项或有其他方法使用代理?

Basic crawler基本上只是一个爬行框架,没有自己的请求资源的能力,所以如果你想要使用它,那么你需要在handleRequestFunction中使用一些第三方的Node请求库手动执行请求。然后您可以在库选项中指定代理。

您可以看到,与其他爬虫不同,基本爬虫的选项中没有代理配置:https://sdk.apify.com/docs/typedefs/basic-crawler-options

如果你想让它自己执行请求,你可以使用另一个爬虫,你可以在爬虫的选项中指定代理:

https://sdk.apify.com/docs/api/cheerio-crawler

https://sdk.apify.com/docs/api/puppeteer-crawler

@vasek-tobey-vicek的回答是正确的。但是作为实现指南:

  1. 您应该使用Apify.createProxyConfiguration

    创建代理配置
  2. 创建你的proxyUrl如:const proxyUrl = proxyConfiguration.newUrl();,在那里你也可以使用你的sessionId

  3. 在请求库中使用proxyUrl

    示例:如果您正在使用Apify提供的utils.requestAsBroswer,您可以在提供的选项中提供proxyUrl属性

最新更新