Pydoop在大数据分析和数据科学中的重要性



我是数据科学和大数据框架的新手
比方说,我有一个CSV格式的数据集输入
我从谷歌和其他资源中找到的关于数据分析师和数据科学家的日常工作,

  • 一旦用户获得数据集,首先将在python pandas库的帮助下进行操作,该库包括数据清理和其他内容
  • 然后用户使用matplotlib和其他技术将数据可视化
  • 用户可以编写机器学习算法来获得一些标准的预测

以上所有工作流程都可以概括为数据分析和预测。

现在,在另一个帐户上,我发现Pydoop(Python的Hadoop框架(进行存储、处理等操作

我有点困惑,在上面提到的数据分析工作流程中,pydoop到底在哪里?

请引导我。

Pydoop不是一个框架。文档中说它是MapReduce框架的接口

Pydoop是Hadoop的Python接口,允许您用纯Python 编写MapReduce应用程序

通过更多的研究,你会发现PySpark的例子比pydoop更多,而且编写简单的MapReduce并不容易(尽管在Python中比Java更容易(,也不适合数据科学家

在任何情况下,上述工作流,用户需要得到"数据集"。它可以存储在Hadoop中,pydoop可以处理它(通过MapReduce应用程序(,然而,pandas不太容易做到这一点,因为panda需要所有数据在本地创建数据帧,而不是从远程文件系统逐行流式传输。

与PySpark相比,pydoop本身也没有提供任何机器学习算法,因此同样不适用于工作流。

PySpark有一个toPandas函数,它是Hadoop进程和用于数据科学和可视化的"独立"Pandas应用程序之间的网关,但Jupyter和Apache Zeppelin更常用于直接进行Spark可视化,而无需与Pandas接口。

最新更新