小贝子编程

如何使用mapreduce合并一些文件

本文关键字：文件合并何使用 mapreduce java file-io merge hadoop mapreduce
更新时间 : 2023-08-29
英文 : How to merge some files using mapreduce?

我将使用 map/reduce 合并一些在相同目录下的小文件。我看到有人说使用流将非常简单，但现在我只能使用JAVA映射/reduce。现在我的解决方案是逐条记录读取文件并将它们写入同一个输出文件。但我认为这是低效的。是否可以将整个文件的内容用作映射器的值，以便提高 I/O 效率？感谢您的回复！

这样做的"低效"方法是只对文件进行分类并将其写回：

hadoop fs -cat /path/to/files/*.txt | hadoop fs -put - /output/path/blobbed.txt

您可能会发现，这对于更大的数据集也很好用。

最新更新

写JSON例如persondata的正确方法是什么?
Django Password Expiry
如何使用python为XML文件中的现有文本添加XML元素
是可能的，如果是这样，是否有一个性能优势，结合最小的API和经典控制器?
如何从本地存储中删除一个多维数组的按钮点击?
反应.Ok总是正确的，即使是故意使用错误的国家
Jenkins zip调试和发布apk，并希望做archiveArtifacts
如何在Oracle XE 21c上下载HR模式?
r语言 - 是否有可能强制一个特定的变量进入bestglm?
从html [web app using flask]中的python文件获取信息
磁盘[admin]未配置，请在' config/ filessystems .php '中添加磁盘配置
如何从子组件中设置父组件中的变量
我如何排序我的捆绑器依赖之间是一个开发依赖或不是?
Weka RF 不会给出任何混淆矩阵或预期结果
我想简化这个javascript代码.有许多子元素
如何将列表转换为元组，我尝试了基于谷歌搜索，它从未工作过
键和值的哈希集
目标链接并不总是出现在iframe中
0x800700b7向IIS部署网站错误
条形码扫描器何时创建com端口，何时不创建?
在SQL中创建一个没有join的视图
在React中使用jQuery仅用于更改样式(颜色，边框等)是可以的吗?
UseState没有更新组件属性
c语言 - 我有一个将字符串作为参数的函数.v手动输入字符串有效，但使用 scanf 不起作用
无法解析google工作表中的范围
如何在顺风中使用柔韧
无法将数据插入数据库
r语言 - 闪亮的应用程序输出显示在控制台，而不是在主面板
ModuleNotFoundError for 'sklearn' as subdependency of numpy
语句中未声明的标识符导致的负索引'for'

如何使用mapreduce合并一些文件

相关内容

最新更新

热门标签：