将Hadoop与MongoDB一起使用作为数据库而不是HDFS是否可行?



我正在研究Hadoop with MongoDB as Database而不是HDFS。因此,我需要在性能和可用性方面提供一些指导。

我的方案

我的数据是

    来自推特
  • 的推文
  • 脸书新闻提要

我可以从Twitter和Facebook API获取数据。为了进行Hadoop处理,我需要存储。

所以我的问题是,使用Hadoop和Mongo DB来存储社交网络数据(如Twitter提要,Facebook帖子等)是否可行(或有益)? 还是使用 HDFS 并将数据存储在文件中更好。任何专业知识指导将不胜感激。谢谢

这样做

是完全可行的。但这主要取决于您的需求。基本上,一旦你有了数据,你想做什么?

也就是说,MongoDB绝对是一个不错的选择。它擅长存储非结构化的深度嵌套文档,例如您案例中的 JSON。您不必太担心数据中的嵌套和关系。 您也不必担心架构。无模式存储无疑是使用MongoDB的一个令人信服的理由。

另一方面,我发现HDFS更适合平面文件,你只需要选择规范化的数据并开始处理。

但这些只是我的想法。其他人可能会有不同的意见。我的最后一个建议是很好地分析您的用例,然后完成您的商店。

最新更新