如何比较表格列矩阵中的文本字符串



如果我有一个 N×1 的表格列,如何检测是否有任何行相同?

如果您只想确定是否存在重复的行,则可以使用 unique 来执行此操作。您可以检查列中唯一值的数量,并将其与同一列中的元素总数(numel(进行比较

tf = unique(t.Column) == numel(t.Column)

如果要确定哪些行是重复的,可以再次使用 unique 但使用第三个输出,然后使用 accumarray 计算每个值的出现次数,然后选择多次出现的值。

[vals, ~, inds] = unique(t.Column, 'stable'); 
repeats = vals(accumarray(inds, 1) > 1);
% And to print them out:
fprintf('Duplicate value: %sn', repeats{:})

如果您想要一个 true/false 的逻辑向量来表示存在重复项的位置,您可以执行类似于上述操作的操作

[vals, ~, inds] = unique(t.Column, 'stable');
result = ismember(inds, find(accumarray(inds, 1) > 1));

[vals, ~, inds] = unique(t.Column, 'stable');
result = sum(bsxfun(@eq, inds, inds.'), 2) > 1;

更新

您可以结合上述两种方法来实现您想要的。

[vals, ~, inds] = unique(t.Column, 'stable'); 
repeats = vals(accumarray(inds, 1) > 1);
hasDupes = numel(repeats) > 0;
if hasDupes
    for k = 1:numel(repeats)
        fprintf('Duplicate value: %sn', repeats{k});
        fprintf('   Found at: ');
        fprintf('%d ', find(strcmp(repeats{k}, t.Column)));
        fprintf('n');
    end
end

相关内容

  • 没有找到相关文章

最新更新