正在读取移动平均线前几行中的字段

主要问题

在另一个AWK程序中递归调用AWK，然后将输出保存到(数字(变量的正确语法是什么？

我想使用2/3变量调用AWK：

N->可以从Bash或容器AWK脚本中读取
Linenum->从容器读取AWK程序
J->我想阅读的字段

这是我的尝试。

集装箱AWk程序：

BEGIN {}
{
...
# Loop in j 
...
k=NR
# Call to other instance of AWK 
var=(awk -f -v n="$n_steps" linenum=k input-file 'linenum-n {printf "%5.4E", $j}'
...
}
END{}

更一般性问题的背景：

我有一个文件，我想为它计算n(例如2280(步的移动平均值。

理想情况下，对于前n行，平均值为1至k，其中k<=n。
对于k>n行，平均值为最后n值。

我最终会在许多大文件中执行代码，这些文件有几列，数千到数百万行，所以我有兴趣尽可能精简代码。

代码摘录和说明

我试图开发的代码看起来像这样：

NR>1
{
# Loop over fields 
for (j in columns)
{
# Rows before full moving average is done
if ( $1 <= n )
{
cumsum[j]=cumsum[j]+$j #Cumulative sum 
$j=cumsum[j]/$1        # Average
}
#moving average
if ( $1 > n )
{
k=NR
last[j]=(awk -f -v n="$n_steps" ln=k input-file 'ln-n {printf "%5.4E", $j}') # Obtain value that will get ubstracted from moving average
cumsum[j]=cumsum[j]+$j-last[j] # Cumulative sum adds last step and deleted unwanted value
$j=cumsum[j]/n  # Moving average
}
}
}

我的输入文件包含多个列。第一列包含行号，其他列包含值。

对于移动平均线的累积和：如果我在k行，我想把它加到累积和上，但也要开始减去我不需要的第一个值(k-n(。

我不想为最后一步创建一个累积和数组，因为我觉得这可能会影响性能。我更喜欢直接选择要减去的值。

为此，我需要再次致电AWK(但电话不同(。我试着在这行做：

k=NR
last[j]=(awk -f -v n="$n_steps" ln=k input-file 'ln-n {printf "%5.4E", $j}'

我确信这个代码不可能是正确的。

讨论问题

获取AWK正在处理的前一行中字段信息的最佳方式是什么？然后可以将其保存到变量中吗？

这种AWK的递归使用是允许的还是推荐的？

如果没有，更新累积和值以获得足够高效的代码的最有效方法是什么？

样本输入和输出

这里是输入(第二列(和所需输出(第三列(的示例。我使用3作为的平均步数(n(

N   VAL AVG_VAL
1   1   1
2   2   1.5
3   3   2
4   4   3
5   5   4
6   6   5
7   7   6
8   8   7
9   9   8
10  10  9
11  11  10
12  12  11
13  13  12
14  14  13
14  15  14

如果你想对一列进行运行平均，你可以这样做：

BEGIN{n=2280; c=7}
{ s += $c - a[NR%n]; a[NR%n] = $c }
{ print $0, s /(NR < n : NR ? n) }

在这里，我们将最后的n值存储在数组a中，并跟踪累积和s。每次我们更新总和时，我们都会先从中删除最后一个值。

如果你想为几个列做这件事，你必须方便地跟踪你的阵列

BEGIN{n=2280; c[0]=7; c[1]=8; c[2]=9}
{ for(i in c) { s[i] += $c[i] - a[n*i + NR%n]; a[n*i + NR%n] = $c[i] } }
{ printf $0
for(i=0;i<length(c);++i) printf OFS (s[i]/(NR < n : NR ? n))
printf ORS
}

但是，您提到您必须添加数百万个条目。这就是它变得有点棘手的地方。当您一点一点地失去精度时(当您添加浮点值时(，对许多值求和会引入数字错误。因此，在这种情况下，我建议执行Kahan求和。

对于一列，你会得到：

BEGIN{n=2280; c=7}
{ y = $c - a[NR%n] - k; t = s + y; k = (t - s) - y; s = t; a[NR%n] = $c }
{ print $0, s /(NR < n : NR ? n) }

或者扩展为：

BEGIN{n=2280; c=7}
{ y = $c       - k; t = s + y; k = (t - s) - y; s = t; }
{ y = -a[NR%n] - k; t = s + y; k = (t - s) - y; s = t; }
{ a[NR%n] = $c }
{ print $0, s /(NR < n : NR ? n) }

对于多列问题，现在可以直接调整上面的脚本。您只需要知道y和t是临时值，k是需要存储在内存中的补偿项。

主要问题

更一般性问题的背景：

代码摘录和说明

讨论问题

样本输入和输出

相关内容

最新更新

热门标签：