框架窗口与系列的性能问题



>我使用的是 c# 中的 Deedle,与对序列的相同操作相比,通过框架进行窗口化非常慢。例如,对于大小相似的系列和帧,我看到 60ms vs 3500ms(系列与帧(。

以前有人见过这个吗?

var msftRaw = Frame.ReadCsv(@"C:UsersolivisourcereposConsoleAppMSFT.csv");
var msft = msftRaw.IndexRows<DateTime>("Date").SortRowsByKey();
var rollingFrame = msft.Window(60); // 7700 ms
var openSeries = msft.GetColumn<double>("Open");
var rollingSeries = openSeries.Window(60); // 14 ms
var oneSeriesFrame = Frame.FromColumns(new Dictionary<string, Series<DateTime, double>> { { "Open", openSeries } });
var rollingFakeFrame = oneSeriesFrame.Window(60); // 3300mm

在处理金融时间序列数据时,这是一个非常常见的操作,例如计算价格之间的滚动相关性,或者在另一个价格时间序列存在条件时计算滚动实现波动率。

我找到了解决性能问题的解决方法:分别对每个系列执行滚动操作,将滚动系列加入一个帧中,以便它们按日期对齐,并在帧上写入处理函数,在处理函数中选择每个系列。

从上面的例子继续:

private static double CalculateRealizedCorrelation(ObjectSeries<string> objectSeries)
{
    var openSeries = objectSeries.GetAs<Series<DateTime, double>>("Open");
    var closeSeries = objectSeries.GetAs<Series<DateTime, double>>("Close");
    return MathNet.Numerics.Statistics.Correlation.Pearson(openSeries.Values, closeSeries.Values);
}
var rollingAgg = new Dictionary<string, Series<DateTime, Series<DateTime, double>>>();
foreach (var column in msft.ColumnKeys)
{
    rollingAgg[column] = msft.GetColumn<double>(column);
}
var rollingDf = Frame.FromColumns(rollingAgg);
var rolingCorr = rollingDf.Rows.Select(kvp => CalculateRealizedCorrelation(kvp.Value));

最新更新