小贝子编程

分布式爬虫和一致性

本文关键字：一致性爬虫分布式 mysql perl redis web-crawler data-consistency
更新时间 : 2023-09-12
英文 : distributed crawler and consistency

情况是，我们有多个服务器(40+(同时抓取一个相同的URL(以确保我们有最小的遗留内容(并将数据保存到数据库(MySQL(。

现在的问题是：数据来回切换。例如，由于爬网程序/数据库遗留问题，内容将在几秒钟内为 A <</p> -> B <-> A <-> B <-> A。

有没有预防它的好方法？我们正在用Perl编写爬虫，但任何语言对我们来说都很好，因为我们可以借用背后的想法。

任何提示将不胜感激。雷迪斯？零MQ？

谢谢

锁定一行，以便另一个进程无法更新它。

最新更新

Google Cloud Project : Access Issues
Photoshop脚本文件名/后缀
当文件的内容(Flux<DataBuffer>)包装在另一个对象中时，无法使用Web客户端上传文件
如何在SQL Server中使用动态作业名杀死作业列表
CSS文件在React组件文件中不工作
如何在日历中添加具有编辑事件能力的人?
我的 Pip 安装已损坏，我不知道如何重新安装它 [MAC/OSX]
为圆环添加背景色
pandas dataframe检查特定位置中的值是否为NaN值
在python 3.8.2上使用pip下载selenium时出现语法错误
Visual Studio 2019企业版离线安装失败
python中小写和大写的排列
在aws实例中安装rhel中的jenkins时出错
在colab中使用python从谷歌驱动器读取图像
如何根据映射到染色体的读数将bam文件拆分为单独的bam
JUnit测试简单的GUI
r语言 - 使用针织从 rstudio 更改.pdf文档的章节(部分)的样式包装乳胶 "titlesec"
选择所有在jquery中选择的插件
如何在材料UI中设置未来时间<文本字段类型="日期时间-本地" />
ImageData在获取一个像素时是不同的
NVRTC编译什么时候应该产生一个CUBIN?
套接字的真正定义是什么?
尝试使用outlook自动从python脚本发送邮件
检查调用两个函数调用是否调用同一个函数?
如何从数组中选择指定索引以在交换情况下使用它
尽管在PHP中使用$_POST检查isset()，代码仍会执行
如何添加多个版本不兼容的弹性搜索数据源?
Vaultsharp ： System.AggregateException： '发生一个或多个错误。({"错误"：["路由'KV-v2/data'没有处理程序)
将excel公式转换为VBA宏
动画PNG图层和创建一个GIF在Javascript?

分布式爬虫和一致性

相关内容

最新更新

热门标签：