pairedRDD:如何有效地计算所有成对差异(值)


rdd1 key is (user_id, inc_id)  

user_id、inc_id visit_date1 visit_date2 visit_date3 visit_date4

RDD2 密钥也是 (user_id, inc_id) user_id、inc_id purchase_date1 purchase_date2 purchase_date3 purchase_date4

日期按时间顺序排序(visit_date1出现在visit_date 2之前)

这是我想计算的第一次出现 每个(user_id、inc_id)组合的最早条件 当 (visit_date 和 purchase_date) 之间的差异较小时 超过24小时。 我想这样做是一种非常有效的方式,因为我 拥有数千万(user_id、inc_id)对,并且 每个(user_id,inc_id)对数百/数千个条目。

下面是一些示例数据:

RDD1

(100, 1) 2015-01-12 06:32:00.0    2015-02-14 18:32:20.0   2015-03-18 11:18:25.0    2015-04-28 10:18:24.0 

RDD2

(100, 1) 2014-12-18 16:32:00.0    2015-01-10  8:32:20.0   2015-03-18 20:18:25.0   2015-04-28 11:28:42.0
在这种情况下,(2015-03-18 11:18:25.0

2015-03-18 20:18:25.0)和 (2015-04-28 10:18:24.0 2015-04-28 11:28:42.0) 满足内 24 人力资源状况。但是,由于 2015-03-18 11:18:25.0 发生在之前 2015-04-28 10:18:24.0 我要 (2015-03-18 11:18:25.0
2015-03-18 20:18:25.0) 被选中作为结果。

我了解,由于您没有提供数据类型或代码示例,因此您需要折叠RDD并检查累加器和当前值之间的差异小于24小时

相关内容

  • 没有找到相关文章

最新更新