使用驯象师查找数据统计信息



我是驯象师的新手,我正在尝试找到如何利用我的数据集来呈现一些关系。我有一个这样的数据集

IPs,timestamp,bytes_tranferred

我可以从这个集合中推导出哪些不同的关系,以便我可以使用 Mahout 呈现一些有意义的值。目前,我计划使用此集来表示哪个客户端(在 IP 列中)在给定时间内具有更多流量。所以我猜我将不得不将 IP 分组在一起。有没有更好的想法,我如何使用 JAVA 代码来做到这一点。恳请建议。

提前致谢

基本上这取决于您的要求,您可以在一个时间段内计算数据传输,ip在一段时间内具有数据传输等,但要计算不要认为您需要驯象框架,简单的MR作业可以完成所有这些。

最新更新