如何使用大型Hadoop群集学习

众所周知，学习大数据的最大困难是很难访问大规模的数据量和机器，只有可以通过本地虚拟机来学习原理。现在，我可以访问超过一千多个集群。如何合理使用它？

我会争论相反的话。大规模分布式处理引擎(如Spark，Flink等(的点是，您编写的代码为过程数据适用于任意大小的数据集。您可以在VM或带有100个记录的笔记本电脑上进行操作，并且它将与您在1,000个节点群集上处理1000亿记录的工作或多或少相同，假设您的输入很容易平行，并且不会太偏斜。我不确定为什么您没有明确的目标可以使用许多机器，但是有很多可公开的数据集可以修改。

相关内容

最新更新

热门标签：