小贝子编程

如何在hadoop流中分配Mapreduce任务

本文关键字：分配 Mapreduce 任务 hadoop python hadoop mapreduce hadoop-streaming
更新时间 : 2023-09-21
英文 : How to distribute Mapreduce task in hadoop streaming

例如，我有多行日志文件我有mapper.py。这个脚本解析文件。在这种情况下，我想做我的映射器它独立

Hadoop Streaming已经"分布式"；，但是与一个输入和输出流隔离。您需要编写一个脚本来遍历文件，并为每个文件运行单独的流作业。

如果你想批量处理很多文件，那么你应该把所有文件上传到一个HDFS文件夹，然后你可以使用mrjob(假设你真的想要MapReduce(，或者你可以切换到pyspark来并行处理它们，因为我认为没有必要按顺序处理。

最新更新

位置文本框/ plt.Figtext的几个图像正好在图像的下面
使用bootstrap将页脚推到页面底部
Getting HystrixRuntimeException: Function timed-out and fall
登录后，进入登录界面并显示仪表板
我可以最大化pygame窗口不隐藏标题栏?
如何在水晶有效地操纵二进制数?
我如何访问MongoDB与NextAuth创建的默认ObjectId
如何对DynamoDB数据库进行安全分区以保护用户数据
为什么我在这里得到浮点异常(SIGFPE) ?
当axios在React中请求时，Ruby on Rails不包括头部的授权令牌，但它可以与Postman一起工作.&l
为什么我在使用pylab制作条形图时收到此错误
如何在应用程序中设置代理URI.Quarkus, Camel和AMQ的性质
没有原始sql查询的DRF嵌套序列化
Test-NetConnection -AsJob?
将api响应操作为对象键/值对列表
尝试将列表向右移动的次数，用列表的第一个值填充左侧
python asyncio cancel run_in_executor阻塞主线程
如何在visual basic中根据用户输入声明变量
为什么我的Django数据库刷新命令不起作用
在html和angular上使用canvas的动态id
如何制作合适的函数包装器
Regex显示字符串中的第一组数字
Python:对文本页面(文件)中的脚注重新编号的算法
AuthClient 不是一个类型，因此它不能用作类型参数 - Dart 包googleapis_auth
如何在mysql查询中格式化unix时间戳并剥离后缀?
表示Last_Name + First_Name有一条特定值的记录
Django Form这么多字段
Default如何将create_function更改为匿名函数?
Pandas组按行数百分比排序
从Word文档转换为PDF，显示错误的标题

如何在hadoop流中分配Mapreduce任务

相关内容

最新更新

热门标签：