我在Glassdoor 上读到Yelp的采访
"我们有一个相当大的日志文件,大约5GB。日志文件的每一行都包含一个用户在我们网站上访问过的url。我们想弄清楚用户访问过的最受欢迎的100个url是什么。"
其中一个解决方案是
cat log|sort|uniq-c|sort-k2n|head 100
有人能向我解释一下第二类(排序-k2n)的目的是什么吗?
谢谢!
看起来阶段是:
1) 将日志文件放入过滤器
2) 将相同的文件名放在一起
3) 统计每个不同文件名的出现次数
4) 按出现次数对配对(文件名、出现次数)进行排序
5) 打印出100个更常见的文件名