我正在研究Hadoop with MongoDB as Database
而不是HDFS。因此,我需要在性能和可用性方面提供一些指导。
我的方案
我的数据是
- 来自推特
- 的推文
- 脸书新闻提要
我可以从Twitter和Facebook API获取数据。为了进行Hadoop处理,我需要存储。
所以我的问题是,使用Hadoop和Mongo DB来存储社交网络数据(如Twitter提要,Facebook帖子等)是否可行(或有益)? 还是使用 HDFS 并将数据存储在文件中更好。任何专业知识指导将不胜感激。谢谢
是完全可行的。但这主要取决于您的需求。基本上,一旦你有了数据,你想做什么?
也就是说,MongoDB绝对是一个不错的选择。它擅长存储非结构化的深度嵌套文档,例如您案例中的 JSON。您不必太担心数据中的嵌套和关系。 您也不必担心架构。无模式存储无疑是使用MongoDB的一个令人信服的理由。
另一方面,我发现HDFS更适合平面文件,你只需要选择规范化的数据并开始处理。
但这些只是我的想法。其他人可能会有不同的意见。我的最后一个建议是很好地分析您的用例,然后完成您的商店。
呵呵