如何累积数据集



我有一个值在1N > 1之间的向量。某些值可能连续出现多次。现在我想要第二行,它对连续的条目进行计数,并删除所有连续出现的条目,例如:

A = [1 2 1 1 3 2 4 4 1 1 1 2]'

将导致:

B = [1 1;
     2 1;
     1 2;
     3 1;
     2 1;
     4 2;
     1 3;
     2 1]

(您可以看到,第二列包含连续条目的数量!我最近在MATLAB中遇到了accumarray(),但我找不到任何解决方案,因为它总是考虑整个向量,而不仅仅是连续的条目。

知道吗?

这可能不是最可读或最优雅的方法,但如果你有大的矢量,并且速度是个问题,这种矢量化可能会有所帮助。。。

A = [1 2 1 1 3 2 4 4 1 1 1 2];

首先,我要用前导和尾随零来填充A,以捕捉的第一个和最后一个转换

>>  A = [0, A, 0];

可以在相邻值之间的差不等于零的地方找到过渡位置:

>> locations = find(diff(A)~=0);

但因为我们用零填充了A的开头,所以第一个转换是荒谬的,所以我们只从2:end开始取位置。其中A中的值是每个段的值:

>> first_column = A(locations(2:end))
ans =
     1     2     1     3     2     4     1     2

这是第一个巨人-现在找到每个数字的计数。这可以从位置的差异中找到。这就是两端的填充A变得重要的地方:

>> second_column = diff(locations)
ans =
 1     1     2     1     1     2     3     1

最后组合:

B = [first_column', second_column']
B =
 1     1
 2     1
 1     2
 3     1
 2     1
 4     2
 1     3
 2     1

所有这些都可以组合成一条可读性较差的行:

>> A = [1 2 1 1 3 2 4 4 1 1 1 2]';
>> B = [A(find(diff([A; 0]) ~= 0)), diff(find(diff([0; A; 0])))]
B =
 1     1
 2     1
 1     2
 3     1
 2     1
 4     2
 1     3
 2     1

我看不到在数据集中循环的其他方法,但它相当直接。也许这不是最优雅的解决方案,但就我所见,它运行良好。

function B = accum_data_set(A)
    prev = A(1);
    count = 1;
    B = [];
    for i=2:length(A)
        if (prev == A(i))
            count = count + 1;
        else
            B = [B;prev count];
            count = 1;
        end
        prev = A(i);
    end
    B = [B;prev count];

输出:

>> A = [1 2 1 1 3 2 4 4 1 1 1 2]';
>> B = accum_data_set(A)
B =
     1     1
     2     1
     1     2
     3     1
     2     1
     4     2
     1     3
     2     1

最新更新