小贝子编程

在一个大文件中查找命中率最高的url

本文关键字：命中率查找 url 文件一个 algorithm sorting unix
更新时间 : 2023-08-27
英文 : Find the most hit url in a large file

我在Glassdoor 上读到Yelp的采访

"我们有一个相当大的日志文件，大约5GB。日志文件的每一行都包含一个用户在我们网站上访问过的url。我们想弄清楚用户访问过的最受欢迎的100个url是什么。"

其中一个解决方案是

cat log|sort|uniq-c|sort-k2n|head 100

有人能向我解释一下第二类（排序-k2n）的目的是什么吗？

谢谢！

看起来阶段是：

1）将日志文件放入过滤器

2）将相同的文件名放在一起

3）统计每个不同文件名的出现次数

4）按出现次数对配对（文件名、出现次数）进行排序

5）打印出100个更常见的文件名

最新更新

我如何隐藏(而不是禁用)在Django admin的动作添加模型按钮在ModelAdmin列表视图?
AWS CloudFormation：Cognito LambdaTrigger CustomEmailSender - 属性"Not currently supported by AWS Cloud
Python Discord bot !命令的权限
GitHub上下文变量未针对可重用工作流引用进行评估
停止滑动眼睛.IO克隆，相位器3
我正在尝试运行美洲驼索引模型，但是当我进入索引构建步骤时 - 它一次又一次地失败，我该如何解决这个问题？
502坏网关与Nginx服务器托管.net核心项目
LG Hub Script Non-Functional
c -对齐检查在WebAssembly时，模拟XMM的内在?
我的多线程代码与c++不能正常工作
如何在SQL数据库行中存储一对多关系?
向b-tree索引更新具有相同值的列
在c++中，用引号和空格之间的键/值加载文件的最有效方式是什么?
Java多线程并发与并行
在启动画面中淡入和淡出图像
多个模型到一个manytomanyfield表
Javascript-如果array2部分排序为array1，则检查数组
为什么我的Biquad过滤器没有从我的噪音正确断开?
删除nullptr对象可能调用也可能不调用释放函数.为什么不保证后者呢?
Azure SQL Hyperscale-0个辅助副本
我使用的只是音频在扑动应用程序，从url播放，在真实设备上的一段时间后，应用程序停止，试图在后台播放音频
使用正则表达式模式的小写文本
Java -不同语言的字符串
c - WSL:功能未实现
我如何轻松地重新安装所有卸载的VS Code扩展，他们的文件仍然徘徊在我的~/.vscode /扩展文件夹吗?<
使用MS Graph API在应用注册中添加更多应用角色
PAC文件未正确筛选网站
返回一个字典，每个字符都有多个实例
AWS S3 -仅Zip文件对象，而不是路径
公共api如何处理CORS起源和jwt ?

在一个大文件中查找命中率最高的url

相关内容

最新更新

热门标签：