正在更新R数据帧中的值



我是R编程的新手,我想知道是否有办法通过比较两个文件来更新值。

例如,我有我的主表df_table1:

Date           Metric1     Metric2     Metric3
1/1/2018       25          4.6         49
2/1/2018       6           3.6         67
3/1/2018       18          2.6         36
4/1/2018       56          3.6         29

我反复浏览文件夹中的各种文件,碰巧有一个文件也包含一些日期值相同的重叠数据,df_table2:

Date           Metric1    Metric2      Metric3
3/1/2018       19         2.9          47
4/1/2018       78         5.7          35
5/1/2018       46         3.3          29

组合数据文件的常用方法是使用rbind((,但我相信这会为df_table2中的两个日期创建重复的值。

有没有一种方法可以有效地进行比较,检查我所有后续文件上的重叠日期,并根据df_table1中的日期替换它们对应的值?

理想情况下,如果df_table2中的所有度量的值都大于df_table1中的值,那么有一种方法只进行替换会更好。

最后,我希望最终输出是df_table1和df_table2的组合,通过某种特殊的rbind((函数,从df_table2中更新值,不重复:

Date           Metric1    Metric2      Metric3
1/1/2018       25         4.6          49
2/1/2018       6          3.6          67
3/1/2018       19         2.9          47       #updated from df_table2
4/1/2018       78         5.7          35       #updated from df_table2
5/1/2018       46         3.3          29       #new value from df_table2

谢谢!

让我们先定义数据(为了将来,请自己定义数据,让人们更容易帮助您(:

df_table1= data.frame(Date=c('1/1/2018','2/1/2018','3/1/2018','4/1/2018'), 
Metric1 = c(25,6,18,56),
Metric2 = c(4.6,3.6,2.6,3.6),
Metric3 = c(49,67,36,29))
df_table2= data.frame(Date=c('3/1/2018','4/1/2018','5/1/2018'), Metric1 = c(19,78,46),
Metric2 = c(2.9,5.7,3.3),
Metric3 = c(48,35,29))

接下来,我将合并这些表,然后重新创建您需要的变量。我为你写的第一篇,其他的应该很容易。不只是使用is.na(),您可以比较哪个变量更大,然后选择您想要的变量。

df = merge(df_table1, df_table2, by='Date', all=TRUE)
df$Metric1 = df$Metric1.y
df$Metric1[is.na(df$Metric1)]  = df$Metric1.x[is.na(df$Metric1)] 
df
Date    Metric1.x Metric2.x Metric3.x Metric1.y Metric2.y Metric3.y Metric1
1 1/1/2018        25       4.6        49        NA        NA        NA      25
2 2/1/2018         6       3.6        67        NA        NA        NA       6
3 3/1/2018        18       2.6        36        19       2.9        48      19
4 4/1/2018        56       3.6        29        78       5.7        35      78
5 5/1/2018        NA        NA        NA        46       3.3        29      46

使用dplyr:

rbind(df_table1,df_table2) %>% group_by(Date) %>% filter(Metric1==max(Metric1))
# A tibble: 5 x 4
# Groups:   Date [5]
Date     Metric1 Metric2 Metric3
<chr>      <dbl>   <dbl>   <dbl>
1 1/1/2018     25.    4.60     49.
2 2/1/2018      6.    3.60     67.
3 3/1/2018     19.    2.90     48.
4 4/1/2018     78.    5.70     35.
5 5/1/2018     46.    3.30     29.

请注意,这是假设如果一个表中的Metric1比另一个表大,那么所有其他度量都会大。如果不是这样,我不清楚会发生什么。

这是一个奇怪而复杂的代码,它将为两个表中的每个日期保留一行,保留所有度量都大于另一行的行,或者,如果两行都不符合该规则,它将保留表1中的行:

首先,让我们稍微更改一下数据:

df_table1= data.frame(Date=c('1/1/2018','2/1/2018','3/1/2018','4/1/2018'), 
Metric1 = c(25,6,18,56),
Metric2 = c(4.6,3.6,2.6,6.3),
Metric3 = c(49,67,36,29), stringsAsFactors = FALSE)
df_table2= data.frame(Date=c('3/1/2018','4/1/2018','5/1/2018'), Metric1 = c(19,78,46),
Metric2 = c(2.9,5.7,3.3),
Metric3 = c(48,35,29), stringsAsFactors = FALSE)

现在,1月4日的一行将有更高的度量2,而其他度量在另一行更高。

rbind(df_table1,df_table2) %>% 
group_by(Date) %>% 
mutate(keeper=(Metric1==max(Metric1) & Metric2==max(Metric2) & Metric3==max(Metric3))) %>% 
group_by(Date,keeper) %>% 
filter(row_number()==1) %>% 
group_by(Date) %>% add_count() %>% 
mutate(keeper=ifelse(n==1,TRUE,keeper)) %>% 
filter(keeper) %>% select(-keeper, -n)
# A tibble: 5 x 4
# Groups:   Date [5]
Date     Metric1 Metric2 Metric3
<chr>      <dbl>   <dbl>   <dbl>
1 1/1/2018     25.    4.60     49.
2 2/1/2018      6.    3.60     67.
3 4/1/2018     56.    6.30     29.
4 3/1/2018     19.    2.90     48.
5 5/1/2018     46.    3.30     29.

我相信有一种更优雅的方法可以实现这一点,但我不知道它是什么——我经历了很多尝试和错误。。。

最后,如果你决定只保留表1的版本,如果有重复的日期,不管指标如何,都可以这样做:

rbind(df_table1,df_table2) %>%  filter(!duplicated(Date))
Date Metric1 Metric2 Metric3
1 1/1/2018      25     4.6      49
2 2/1/2018       6     3.6      67
3 3/1/2018      18     2.6      36
4 4/1/2018      56     6.3      29
5 5/1/2018      46     3.3      29

这应该适用于

library(dplyr)
df_new <- df_table1%>%
anti_join(df_table2, by = c('Date'))%>%
rbind(data= . ,df_table2)

相关内容

  • 没有找到相关文章

最新更新