我在apify中使用基本的爬虫,我如何使用代理呢?在基本爬虫中没有代理选项或有其他方法使用代理?
Basic crawler基本上只是一个爬行框架,没有自己的请求资源的能力,所以如果你想要使用它,那么你需要在handleRequestFunction
中使用一些第三方的Node请求库手动执行请求。然后您可以在库选项中指定代理。
您可以看到,与其他爬虫不同,基本爬虫的选项中没有代理配置:https://sdk.apify.com/docs/typedefs/basic-crawler-options
如果你想让它自己执行请求,你可以使用另一个爬虫,你可以在爬虫的选项中指定代理:
https://sdk.apify.com/docs/api/cheerio-crawler https://sdk.apify.com/docs/api/puppeteer-crawler@vasek-tobey-vicek的回答是正确的。但是作为实现指南:
-
您应该使用
创建代理配置Apify.createProxyConfiguration
-
创建你的proxyUrl如:
const proxyUrl = proxyConfiguration.newUrl();
,在那里你也可以使用你的sessionId -
在请求库中使用
proxyUrl
示例:如果您正在使用Apify提供的
utils.requestAsBroswer
,您可以在提供的选项中提供proxyUrl
属性