如何使用大型Hadoop群集学习



众所周知,学习大数据的最大困难是很难访问大规模的数据量和机器,只有可以通过本地虚拟机来学习原理。现在,我可以访问超过一千多个集群。如何合理使用它?

我会争论相反的话。大规模分布式处理引擎(如Spark,Flink等(的点是,您编写的代码为过程数据适用于任意大小的数据集。您可以在VM或带有100个记录的笔记本电脑上进行操作,并且它将与您在1,000个节点群集上处理1000亿记录的工作或多或少相同,假设您的输入很容易平行,并且不会太偏斜。我不确定为什么您没有明确的目标可以使用许多机器,但是有很多可公开的数据集可以修改。

最新更新