R语言识别重复行组并保持组顺序

我正在尝试使用随机重复的"块"来组织患者数据电子表格。不幸的是，数据行是随机重复的，给了我重复的"块"。我需要在保留原始顺序的同时删除重复块。

下面是一个示例：

+---------+-----+----------+
| patient | age | children |
+---------+-----+----------+
| x       | 30  | g        |
| x       | 30  | b        |
| x       | 30  | g        |
| x       | 30  | b        |
| x       | 30  | g        |
| x       | 30  | b        |
| y       | 25  | g        |
| y       | 25  | b        |
| y       | 25  | b        |
| y       | 25  | g        |
| y       | 25  | b        |
| y       | 25  | b        |
+---------+-----+----------+

你可以看到，患者"x"块(有2个孩子)重复三次，患者"y"块(有3个孩子)重复两次。重复块的数量是随机的。

这是我的目标：重要的是保持孩子的秩序

+---------+-----+----------+
| patient | age | children |
+---------+-----+----------+
| x       | 30  | g        |
| x       | 30  | b        |
| y       | 25  | g        |
| y       | 25  | b        |
| y       | 25  | b        |
+---------+-----+----------+

我首先在 excel 中尝试了这个：第 1 步：为所有行提供唯一标识符，以保留子行的顺序第 2 步：尝试删除重复项，但这对于有 2 个女孩的患者"Y"来说是一个问题，最后一张桌子删除了其中一个......

我通常在 R 中进行分析，所以如果有人可以提出建议，dplyr解决方案在这里会很棒

除了以下，我迷路了。有没有办法识别独特的群体？

dat %>% group_by(patient)

dplyr中的distinct()函数可能是你最好的选择;例如：

dat %>% distinct()

可以通过阅读此博客文章找到有关在 R 中识别和删除重复数据的详细信息。

相关内容

最新更新

热门标签：

R语言 识别重复行组并保持组顺序

相关内容

最新更新

热门标签：

R语言识别重复行组并保持组顺序