如何分析大量 URI 日志



我的网络上有大约100万条用户活动的URI日志,我想知道这100万条中有多少是Facebook的,有多少是Twitter的,等等。 很容易将URI cdn.xyz.twitter.com,platform.twitter.com 链接到Twitter。 但是,我面临的问题是我无法将不超过 40% 捕获的 URL 链接到真实网站,例如,像 xys.1234.com 这样的 URL 可以是 facebook 中的内容,但该 URL 和 facebook.com 域之间没有链接,因此只会被列为独立网站,这是错误的(或者不是我想要的)。

此外,所有 API 调用也不会轻易链接到他们的域,因为某些网站可能正在使用亚马逊网络服务,这就是正在记录的内容。

而且许多URI都是从广告服务生成的,我想知道这个广告是从哪里生成的(用户在哪个网站或移动应用程序上点击了广告?

URI 的快照,以便您了解整个情况。

https://i.stack.imgur.com/IjKfj.jpg https://i.stack.imgur.com/eanAT.jpg

所以你正在尝试匹配传出的请求?您如何期望知道访问 xyz.1234.com 的用户是通过Facebook而不是通过在地址栏中输入URL来独立访问的?还是通过单击其他页面的链接?您的日志不包含告诉您从哪个页面链接哪些网址的信息。如果没有其他信息来源,您将无法确定。

您可以检查对多个用户的请求并推断关系。也就是说,如果您注意到所有(或大多数)xyz.1234.com 请求都是在 Facebook 请求之后发生的,则可以推断该请求是由于点击 Facebook 页面而发生的。这样做需要一些有趣的模式匹配。它的效果取决于你必须处理多少数据,你编写模式匹配的程度,以及你愿意让算法运行多少时间。

不过,没有简单的答案。如果你没有明确表示"此请求是通过点击Twitter的链接发出的"的数据,那么你必须要么获得另一个信息来源,要么你必须编写代码来推断该信息。

相关内容

  • 没有找到相关文章

最新更新