如何分析大量 URI 日志

我的网络上有大约100万条用户活动的URI日志，我想知道这100万条中有多少是Facebook的，有多少是Twitter的，等等。很容易将URI cdn.xyz.twitter.com，platform.twitter.com 链接到Twitter。但是，我面临的问题是我无法将不超过 40% 捕获的 URL 链接到真实网站，例如，像 xys.1234.com 这样的 URL 可以是 facebook 中的内容，但该 URL 和 facebook.com 域之间没有链接，因此只会被列为独立网站，这是错误的(或者不是我想要的)。

此外，所有 API 调用也不会轻易链接到他们的域，因为某些网站可能正在使用亚马逊网络服务，这就是正在记录的内容。

而且许多URI都是从广告服务生成的，我想知道这个广告是从哪里生成的(用户在哪个网站或移动应用程序上点击了广告？

URI 的快照，以便您了解整个情况。

https://i.stack.imgur.com/IjKfj.jpg https://i.stack.imgur.com/eanAT.jpg

所以你正在尝试匹配传出的请求？您如何期望知道访问 xyz.1234.com 的用户是通过Facebook而不是通过在地址栏中输入URL来独立访问的？还是通过单击其他页面的链接？您的日志不包含告诉您从哪个页面链接哪些网址的信息。如果没有其他信息来源，您将无法确定。

您可以检查对多个用户的请求并推断关系。也就是说，如果您注意到所有(或大多数)xyz.1234.com 请求都是在 Facebook 请求之后发生的，则可以推断该请求是由于点击 Facebook 页面而发生的。这样做需要一些有趣的模式匹配。它的效果取决于你必须处理多少数据，你编写模式匹配的程度，以及你愿意让算法运行多少时间。

不过，没有简单的答案。如果你没有明确表示"此请求是通过点击Twitter的链接发出的"的数据，那么你必须要么获得另一个信息来源，要么你必须编写代码来推断该信息。

相关内容

最新更新

热门标签：