实时或近实时分析应用程序设计注意事项



我正在设计和实现一个(近)实时网络分析引擎。这类似于Google Analytics和ChartBeat。预计每天有近 150M 个请求。我们有 5 到 8 台机器的可用性,每台机器配备 2.5GHz(8 核)CPU 和 16 GB RAM。

我正在寻找满足此需求的水平可扩展解决方案。目前,我正在为此目的分析mongo-hadoop组合。从我到现在的理解是,很难将所有数据保存在一个地方(一台机器)进行分析。因此,Hadoop作为数据处理器和MongoDB作为数据存储对我来说是一个很好的组合。

对于这种应用程序,是否有标准或(我应该说)经过验证的体系结构?我应该考虑哪些设计注意事项?mongo-hadoop 组合对某人有用吗?

我想你已经读过这个了?

http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start

有关分片配置的更多详细信息和工作示例,请单击此处 - http://www.slideshare.net/spf13/mongodb-and-hadoop

最新更新