我使用IP + User Agent的哈希作为访问网站的每个用户的唯一标识符。这是一个简单的方案,但有一个非常明显的缺陷:标识符冲突。多个用户使用相同的IP +用户代理组合浏览互联网。由相同散列标识的唯一用户将被识别为单个用户。我想知道这个标识符错误发生的频率。
为了计算频率,我创建了一个两步漏斗,理论上应该在零转换:publish.click
> signup.complete
。(用户在发布之前必须注册。)运行这个漏斗1天,我的转化率为0.37%。这个数字是,我想,这个漏斗的唯一标识符碰撞概率。通过查看原始数据(一个大约10,000行长的表),我证实了这个假设。在漏斗期内(1天),新用户通过与完成publish.click
的老用户相同的散列识别完成了37个注册。(我知道这一点,因为散列在整个漏斗中匹配,而在注册时分配的uid却没有匹配。)
我以为我已经弄清楚了…
但是之后我运行了1周的漏斗,转化率上升到了0.78%。5个月后,转化率跃升至1.71%
这里可能是什么在起作用?为什么我的转换(碰撞)率随着实验周期的延长而增加?
我认为这可能与唯一用户通常只触发signup.complete
一次的事实有关,而他们可能在一段时间内多次触发publish.click
。然而,我正在努力把这个假设用语言表达出来。
从最简单的开始:
-
碰撞率相对稳定,但您的初始测量结果并不重要,因为您获得的阳性数量较少。37个不算多。在这种情况下,你有两个像样的数据点。
-
碰撞率不是很稳定,并且随着使用变化而变化(在工作中,在家中,使用手机等)。事实上,你有三个数据点显示上升趋势只是一个巧合。这并不会让我感到惊讶,因为漏斗转化率会随着时间的推移而发生显著变化,尤其是在每周的基础上。
-
如果你真的有多次发布,而注册绝对是一次性的事情,那么你的碰撞率就会增加,因为只注册而不发布的用户最终会发布。这不会增加他们的渠道转化率,但它会为其他人提供额外的发布机会。从本质上讲,每次额外发布都会增加我作为新用户将与之前发布事件混淆的可能性。
OP.假设3被证明是正确的假设。