我正在用 node.io 构建一个刮刀。
我要抓取的页面每分钟都有新内容。我想每分钟都一次又一次地运行我的工作。(好的,我可以用 bash 脚本做到这一点,但我想留在 javascript)这是一项基本工作:
var nodeio = require('node.io'), options = {timeout: 10};
exports.job = new nodeio.Job(options, {
input: ['hello', 'foobar', 'weather'],
run: function (keyword) {
this.getHtml('http://www.google.com/search?q=' + encodeURIComponent(keyword), function (err, $) {
var results = $('#resultStats').text.toLowerCase();
this.emit(keyword + ' has ' + results);
});
}
});
我该怎么做?我是node.js的初学者,我尝试了围绕工作(:没有成功。
试试这个(使用"node <myfile.js
>"而不是"node.io <myfile.js
>"运行):
var nodeio = require('node.io'), options = {timeout: 10};
var job = {
input: ['hello', 'foobar', 'weather'],
run: function (keyword) {
this.getHtml('http://www.google.com/search?q=' + encodeURIComponent(keyword), function (err, $) {
var results = 'test';//$('#resultStats').text.toLowerCase();
this.emit(keyword + ' has ' + results);
});
}
};
setInterval(function(){
nodeio.start(new nodeio.Job(options, job), options, function(){});
}, 5000);
您遇到的问题是 node.io 中的以下代码块,当您在运行作业时未提供回调时,这些代码块会退出节点:
//Default behaviour is to exit once the job is complete
callback = callback || function (err) {
if (err) {
utils.status.error(err);
}
process.exit();
};