如何限制Express.js中的呼叫次数?



我正在使用快递来显示使用木偶师进行一些网页抓取的结果,但我遇到了性能问题。

我多次调用抓取器文件,因为我想一次获得多个结果。

例如:

const express = require('express')
const app = express()
const scraper = require('./scrapers/scraper.js');
app.get('/getResults', function(req, res, next) {
const url = 'http://www.example.com';
const val1 = new Promise((resolve, reject) => {
scraper
.getPrice(results, url, nights)
.then(data => {
resolve(data)
})
.catch(err => reject('Medium scrape failed'))
})
const url = 'http://www.example.com';
const val2 = new Promise((resolve, reject) => {
scraper
.getPrice(results, url, nights)
.then(data => {
resolve(data)
})
.catch(err => reject('Medium scrape failed'))
const url = 'http://www.example.com';
const val3 = new Promise((resolve, reject) => {
scraper
.getPrice(results, url, nights)
.then(data => {
resolve(data)
})
.catch(err => reject('Medium scrape failed'))
const url = 'http://www.example.com';
const val4 = new Promise((resolve, reject) => {
scraper
.getPrice(results, url, nights)
.then(data => {
resolve(data)
})
.catch(err => reject('Medium scrape failed'))
Promise.all([val1, val2, val3, val4])
.then(data => {
console.log(data)
})
.catch(err => res.status(500).send(err))
}

上面的代码将一次调用抓取器.js文件4次,但是一旦前一个完成,我应该怎么做才能调用每个文件?我的意思是,当 val1 完成时,它应该运行 val2 等等。

事实上,我的代码调用抓取器文件18次,这对计算机性能不利,因为puppeteer是基于Chromium的,它实际上一次打开一个新的Chromium实例18次。

当我运行它时,我什至会收到此错误:

(node:26600) MaxListenersExceededWarning: Possible EventEmitter memory leak detected. 11 exit listeners added. Use emitter.setMaxListeners() to increase limit

async await

您可以使用异步 await 编写代码。有趣的是,您可以处理所有错误,并且值会通过 promise 自动返回。

app.get('/getResults', async function(req, res, next) { //<-- notice the async here
try{
const val1 = await scraper.getPrice(results, url, nights)
const val2 = await scraper.getPrice(results, url, nights)
const val3 = await scraper.getPrice(results, url, nights)
const val4 = await scraper.getPrice(results, url, nights)
return res.send([val1, val2, val3, val4])
} catch(err) {
res.status(500).send(err)
}
})

p 极限

您可以使用名为p-limit的包,它以有限的并发性运行多个 promise 返回和异步函数。

const pLimit = require('p-limit');
const limit = pLimit(1);
const input = [
limit(() => scraper.getPrice(results, url, nights)),
limit(() => scraper.getPrice(results, url, nights)),
limit(() => scraper.getPrice(results, url, nights))
];
(async () => {
// Only one promise is run at once
const result = await Promise.all(input);
console.log(result);
})();

为。。循环数

您可以优化这些代码并减少代码重复。与异步..等待和等待..的,你可以进一步减少代码,

// assuming you have these urls
const urls = [
'http://example.com', 'http://example.com',  'http://example.com'
];
const results = []
for(let url of urls){
const data = await scraper.getPrice(results, url, nights);
results.push(data)
}
console.log(results)

你知道承诺可以按顺序做出吗?

val1.then(v1 => return val2).then(v2=> {...})

您应该打开一个新的 Chromium 选项卡,而不是实例。(你只是混淆了概念吗?

最重要的是 - 您需要更好地管理下载过程。队列在这里是最好的。它可以是一个简单的:确保运行的进程不超过n个或更高级:监视服务器资源。

你也许能找到一些包裹。如果没有什么适合你,请记住处理当事情出来时的情况,Node不会注意到这个过程的结束。

我交替使用方法:

  • 将 URL 标记为正在下载,如果在给定时间内未检索,它将返回到队列(更具体地说:指定何时重新下载 URL。下载时是+1分钟,下载后是例如1个月)
  • 我保存了下载过程的PID并定期检查它是否有效

还有一些rate-limits可以控制 HTTP 调用的数量。在端点上,在具有 IP 的同时订单数上。

最新更新