如何从第一列中有数字的文件中获取平均、中位数、平均统计数据



我有一个文件,其中的数字以秒为单位,如下所示:

0.01033
0.003797
0.02648
0.007583
0.007491
0.028038
0.012794
0.00524
0.019655
0.019643
0.012969
0.011087
0.044564

从此文件中获取"平均值"、"平均值"、"中位数"、"第 95 个百分位数"和"第 99 个百分位数"的最佳方法是什么?我的 linux 框中有这个文件,所以我需要一些 linux 命令来获取这些统计数据。

如果您没有绑定到任何特定的工具,请尝试 GNU datamash - 一个用于对文本文件进行">命令行统计操作"的好工具。

要获取第一列/字段的平均值、中位数、百分位数 95 和百分位数 99 值(注意,默认情况下字段TAB分隔(:

$ datamash --header-out mean 1 median 1 perc:95 1 perc:99 1  < file
mean(field-1)   median(field-1) perc:95(field-1)    perc:99(field-1)
0.016128538461538   0.012794    0.0346484   0.04258088

如前面的工具中所述datamash是一个非常强大的工具!如果您想要一个完整的awk解决方案:

平均值:(变量按 awk 自动初始化为零(

awk '{ sum += $1; n++ } END { if (n > 0) print sum / n; }'

或在社邦符号中:

#!/bin/awk
{ sum += $2 }
END { if (NR > 0) print sum / NR }

中位数:

#/usr/bin/env awk
{
    count[NR] = $1;
}
END {
    if (NR % 2) {
        print count[(NR + 1) / 2];
    } else {
        print (count[(NR / 2)] + count[(NR / 2) + 1]) / 2.0;
    }
} 

您需要在使用文件之前对其进行排序:

sort -n data_file | awk -f median.awk

第 95 个百分位数:

sort file -n | awk 'BEGIN{c=0} length($0){a[c]=$0;c++}END{p5=(c/100*5); p5=p5%1?int(p5)+1:p5; print a[c-p5-1]}'

最后但并非最不重要的一点是,您可以使用米勒https://github.com/johnkerl/miller/tree/v4.5.0

最新更新