我想用一个简单的例子实现lambda架构。我无法将我的技术堆栈应用到lambda架构的每一层。
我想实时找出推特上最受欢迎的10个标签。我从http://lambda-architecture.net/中列出了每个层的用途。
- 所有进入系统的数据被分派到两个批处理层和处理速度层。
- 批处理层有两个功能:(i)管理主数据集(一组不可变的、只能追加的原始数据),以及(ii)进行预计算
- 服务层索引批处理视图,以便查询它们
- 速度层补偿了高延迟的更新服务层,只处理最近数据。
- 任何传入的查询都可以通过合并批处理的结果来回答视图和实时视图。
我可以用每一层解决问题的哪一部分。我正在与Apache Spark工作;Hadoop HDFS技术栈
我相信这个链接会对你有帮助。
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/在读取twitter数据并使用Flume将其移动到HDFS后,您应该考虑使用Spark Core而不是Hive。