仅在Hadoop集群中的特定节点上存储HDFS数据



我们有一个 30 个节点的生产集群。我们希望添加 5 个数据节点作为额外的存储,以处理临时数据峰值(约 2 TB(。这些数据将暂时存储,我们希望在 15 天后将其删除。

是否可以确保传入的临时数据 (2 TB( 仅存储在新添加的数据节点上?

我正在寻找类似于 YARN 节点标签的东西。

提前谢谢你。

不幸的是,我不知道在同一个 HDFS 集群中实现这一目标的简单方法。 但我认为您可以通过实施自定义的"块放置策略"来实现此行为。 但是,执行此任务可能有些风险和复杂。

这是 HDFS jira 票证,其中定义/添加了此功能,允许您自定义此策略(JIRA 票证(。

如果你想自定义它,你可以在这里阅读选择数据节点的当前行为,以更好地了解你: 链接 1

同样在这里,您可以找到一篇包含多个参考资料的帖子,这些参考资料可能对如何实施自定义策略及其风险很有用: 发布

如果你想采取这种方式,我推荐的其他阅读材料:

链接 2

帖子 2

这是一篇关于使用自定义块放置策略将副本放置在 SSD 或 HDD(混合群集(中的实验的好论文: 纸

我认为如果可能的话,使用第二个集群会更简单。 例如,您可以评估使用命名空间引用每个集群的 ViewFS:

视图Fs 参考

链接 3

问候

相关内容

  • 没有找到相关文章

最新更新