在一个大文件中查找命中率最高的url



我在Glassdoor 上读到Yelp的采访

"我们有一个相当大的日志文件,大约5GB。日志文件的每一行都包含一个用户在我们网站上访问过的url。我们想弄清楚用户访问过的最受欢迎的100个url是什么。"

其中一个解决方案是

cat log|sort|uniq-c|sort-k2n|head 100

有人能向我解释一下第二类(排序-k2n)的目的是什么吗?

谢谢!

看起来阶段是:

1) 将日志文件放入过滤器

2) 将相同的文件名放在一起

3) 统计每个不同文件名的出现次数

4) 按出现次数对配对(文件名、出现次数)进行排序

5) 打印出100个更常见的文件名

最新更新