HDFS数据倾斜,为什么文件不均匀分布



我用32个奴隶运行HDF。

每个从属大约有300GB的本地磁盘空间(其余的不适合HDFS。)

当我将32 * 100 GB文件放置时,文件仅交付给一些奴隶。由于磁盘空间不足,它崩溃了任务。

如何避免此问题?

我不是管理员,但这是查看您的问题时弹出的第一件事。

Hadoop是一个"拓扑意识"系统。请阅读有关在这里。

如果拓扑不正确,则HDFS用默认复制(3x)写入序列(随机节点 ->在其他机架上的节点 ->与第二副本相同的机架上的节点,但其他节点相同)。

也要检查复制因子的好主意。希望这会有所帮助!

最新更新