我们始终讨论如果我们使用hadoop来拼贴我们的数据和程序会更快。我想知道有可能在一个特定的数据台上保留一个小文件(未拼贴)吗?
可以将一个小文件保存在一个特定的数据台上
HDFS将尝试将任何文件拆分为HDFS块。数据台不会存储整个文件,也不应该尝试存储在特定文件上。让Hadoop管理数据局部性。
默认情况下,您的文件将在Hadoop中复制3次,以实现容错。
如果您的文件小(小于HDFS块大小,64或128MB,具体取决于Hadoop版本),则您可能不应该使用Hadoop。如果需要并行处理,请从多线程开始。如果您实际上需要分布式流程,如今我的建议是火花或flink,而不是hadoop(mapreduce)。
如果您想要这个,似乎您想要对象存储,而不是阻止存储