rdd1 key is (user_id, inc_id)
user_id、inc_id visit_date1 visit_date2 visit_date3 visit_date4
RDD2 密钥也是 (user_id, inc_id) user_id、inc_id purchase_date1 purchase_date2 purchase_date3 purchase_date4
日期按时间顺序排序(visit_date1出现在visit_date 2之前)
这是我想计算的第一次出现 每个(user_id、inc_id)组合的最早条件 当 (visit_date 和 purchase_date) 之间的差异较小时 超过24小时。 我想这样做是一种非常有效的方式,因为我 拥有数千万(user_id、inc_id)对,并且 每个(user_id,inc_id)对数百/数千个条目。
下面是一些示例数据:
RDD1
(100, 1) 2015-01-12 06:32:00.0 2015-02-14 18:32:20.0 2015-03-18 11:18:25.0 2015-04-28 10:18:24.0
RDD2
(100, 1) 2014-12-18 16:32:00.0 2015-01-10 8:32:20.0 2015-03-18 20:18:25.0 2015-04-28 11:28:42.0
在这种情况下,(2015-03-18 11:18:25.02015-03-18 20:18:25.0)和 (2015-04-28 10:18:24.0 2015-04-28 11:28:42.0) 满足内 24 人力资源状况。但是,由于 2015-03-18 11:18:25.0 发生在之前 2015-04-28 10:18:24.0 我要 (2015-03-18 11:18:25.0
2015-03-18 20:18:25.0) 被选中作为结果。
我了解,由于您没有提供数据类型或代码示例,因此您需要折叠RDD并检查累加器和当前值之间的差异小于24小时