是否可以在Hadoop中使用非分类文件创建/工作



我们始终讨论如果我们使用hadoop来拼贴我们的数据和程序会更快。我想知道有可能在一个特定的数据台上保留一个小文件(未拼贴)吗?

可以将一个小文件保存在一个特定的数据台上

HDFS将尝试将任何文件拆分为HDFS块。数据台不会存储整个文件,也不应该尝试存储在特定文件上。让Hadoop管理数据局部性。

默认情况下,您的文件将在Hadoop中复制3次,以实现容错。

如果您的文件小(小于HDFS块大小,64或128MB,具体取决于Hadoop版本),则您可能不应该使用Hadoop。如果需要并行处理,请从多线程开始。如果您实际上需要分布式流程,如今我的建议是火花或flink,而不是hadoop(mapreduce)。

如果您想要这个,似乎您想要对象存储,而不是阻止存储

最新更新