在Julia中按组创建滞后/提前期序列



我想知道是否有一种简单的方法可以根据分组或条件在Julia中创建时间序列变量的滞后(或超前(?例如:我有一个格式的数据集

julia> df1 = DataFrame(var1=["a","a","a","a","b","b","b","b"],
var2=[0,1,2,3,0,1,2,3])
8×2 DataFrame
│ Row │ var1   │ var2  │
│     │ String │ Int64 │
├─────┼────────┼───────┤
│ 1   │ a      │ 0     │
│ 2   │ a      │ 1     │
│ 3   │ a      │ 2     │
│ 4   │ a      │ 3     │
│ 5   │ b      │ 0     │
│ 6   │ b      │ 1     │
│ 7   │ b      │ 2     │
│ 8   │ b      │ 3     │

我想创建一个变量lag2,它包含var2中滞后2的值。然而,这应该按var1分组,这样"b"组中的前两个观测值就不会得到"a"组的最后两个值。相反,应该将它们设置为缺失值、零或某个默认值。

我尝试了以下代码,结果出现以下错误。

julia> df2 = df1 |> @groupby(_.var1) |> @mutate(lag2 = lag(_.var2,2)) |> DataFrame
ERROR: MethodError: no method matching merge(::Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}}, ::NamedTuple{(:lag2,),Tuple{ShiftedArray{Int64,Missing,1,QueryOperators.GroupColumnArrayView{Int64,Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},:var2}}}})
Closest candidates are:
merge(::NamedTuple{,T} where T<:Tuple, ::NamedTuple) at namedtuple.jl:245
merge(::NamedTuple{an,T} where T<:Tuple, ::NamedTuple{bn,T} where T<:Tuple) where {an, bn} at namedtuple.jl:233
merge(::NamedTuple, ::NamedTuple, ::NamedTuple...) at namedtuple.jl:249
...
Stacktrace:
[1] (::var"#437#442")(::Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}}) at /Users/kayvon/.julia/packages/Query/AwBtd/src/query_translation.jl:58
[2] iterate at /Users/kayvon/.julia/packages/QueryOperators/g4G21/src/enumerable/enumerable_map.jl:25 [inlined]
[3] iterate at /Users/kayvon/.julia/packages/Tables/TjjiP/src/tofromdatavalues.jl:45 [inlined]
[4] buildcolumns at /Users/kayvon/.julia/packages/Tables/TjjiP/src/fallbacks.jl:185 [inlined]
[5] columns at /Users/kayvon/.julia/packages/Tables/TjjiP/src/fallbacks.jl:237 [inlined]
[6] #DataFrame#453(::Bool, ::Type{DataFrame}, ::QueryOperators.EnumerableMap{Union{},QueryOperators.EnumerableIterable{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},QueryOperators.EnumerableGroupBy{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},String,NamedTuple{(:var1, :var2),Tuple{String,Int64}},QueryOperators.EnumerableIterable{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.DataValueRowIterator{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.Schema{(:var1, :var2),Tuple{String,Int64}},Tables.RowIterator{NamedTuple{(:var1, :var2),Tuple{Array{String,1},Array{Int64,1}}}}}},var"#434#439",var"#435#440"}},var"#437#442"}) at /Users/kayvon/.julia/packages/DataFrames/S3ZFo/src/other/tables.jl:40
[7] DataFrame(::QueryOperators.EnumerableMap{Union{},QueryOperators.EnumerableIterable{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},QueryOperators.EnumerableGroupBy{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},String,NamedTuple{(:var1, :var2),Tuple{String,Int64}},QueryOperators.EnumerableIterable{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.DataValueRowIterator{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.Schema{(:var1, :var2),Tuple{String,Int64}},Tables.RowIterator{NamedTuple{(:var1, :var2),Tuple{Array{String,1},Array{Int64,1}}}}}},var"#434#439",var"#435#440"}},var"#437#442"}) at /Users/kayvon/.julia/packages/DataFrames/S3ZFo/src/other/tables.jl:31
[8] |>(::QueryOperators.EnumerableMap{Union{},QueryOperators.EnumerableIterable{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},QueryOperators.EnumerableGroupBy{Grouping{String,NamedTuple{(:var1, :var2),Tuple{String,Int64}}},String,NamedTuple{(:var1, :var2),Tuple{String,Int64}},QueryOperators.EnumerableIterable{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.DataValueRowIterator{NamedTuple{(:var1, :var2),Tuple{String,Int64}},Tables.Schema{(:var1, :var2),Tuple{String,Int64}},Tables.RowIterator{NamedTuple{(:var1, :var2),Tuple{Array{String,1},Array{Int64,1}}}}}},var"#434#439",var"#435#440"}},var"#437#442"}, ::Type) at ./operators.jl:854
[9] top-level scope at none:0

感谢使用此方法或其他方法提供的任何帮助。谢谢

编辑

在DataFrames 1.0中,将此编辑放在首位,以反映稳定的API:

在DataFrames.jl 0.22.2下,正确的语法为:

julia> combine(groupby(df1, :var1), :var2 => Base.Fix2(lag, 2) => :var2_l2)
8×2 DataFrame
Row │ var1    var2_l2 
│ String  Int64?  
─────┼─────────────────
1 │ a       missing 
2 │ a       missing 
3 │ a             0
4 │ a             1
5 │ b       missing 
6 │ b       missing 
7 │ b             0
8 │ b             1

另一种可能有点晦涩的Base.Fix2语法的替代方法是,可以使用匿名函数(x -> lag(x, 2))(注意,由于运算符的优先级,需要使用括号(。


原始答案:

你肯定有正确的想法-我不使用Query.jsl,但使用基本的DataFrames语法可以很容易地做到这一点:

julia> using DataFrames
julia> import ShiftedArrays: lag
julia> df1 = DataFrame(var1=["a","a","a","a","b","b","b","b"],
var2=[0,1,2,3,0,1,2,3]);
julia> by(df1, :var1, var2_l2 = :var2 => Base.Fix2(lag, 2)))
8×2 DataFrame
│ Row │ var1   │ var2_l2 │
│     │ String │ Int64⍰  │
├─────┼────────┼─────────┤
│ 1   │ a      │ missing │
│ 2   │ a      │ missing │
│ 3   │ a      │ 0       │
│ 4   │ a      │ 1       │
│ 5   │ b      │ missing │
│ 6   │ b      │ missing │
│ 7   │ b      │ 0       │
│ 8   │ b      │ 1       │

注意,我在这里使用了Base.Fix2来获得lag的单参数版本。这基本上与定义自己的l2(x) = lag(x, 2),然后在by调用中使用l2相同。如果你定义了自己的l2函数,如果你想避免丢失值,你也可以设置默认值,比如l2(x) = lag(x, 2, default = -1000)

julia> l2(x) = lag(x, 2, default = -1000)
l2 (generic function with 1 method)
julia> by(df1, :var1, var2_l2 = :var2 => l2)
8×2 DataFrame
│ Row │ var1   │ var2_l2 │
│     │ String │ Int64   │
├─────┼────────┼─────────┤
│ 1   │ a      │ -1000   │
│ 2   │ a      │ -1000   │
│ 3   │ a      │ 0       │
│ 4   │ a      │ 1       │
│ 5   │ b      │ -1000   │
│ 6   │ b      │ -1000   │
│ 7   │ b      │ 0       │
│ 8   │ b      │ 1       │

最新更新