r语言 - 更正了对重复的非常大的文件的多次测试



我有 10 个大小为 ~8-9 Gb 的文件,如下所示:

7       72603   0.0780181622612
15      72603   0.027069072329
20      72603   0.00215643186987
24      72603   0.00247965378216
29      72603   0.0785606184492
32      72603   0.0486866833899
33      72603   0.000123332654879

对于每对数字(第 1 列和第 2 列(,我都有 p 值(第 3 列(。 但是,我有重复的对(它们可以在不同的文件中(,我想摆脱其中一个。如果文件较小,我会使用熊猫。例如:

7    15    0.0012423442
...
15   7     0.0012423442

我也想对这个集合应用一个校正来进行多次测试,但值的向量非常大。

是否可以使用Python或R执行此操作?

> df <- data.frame(V1 = c("A", "A", "B", "B", "C", "C"),
+                  V2 = c("B", "C", "A", "C", "A", "B"),
+                  n = c(1, 3, 1, 2, 3, 2))
> df
V1 V2 n
1  A  B 1
2  A  C 3
3  B  A 1
4  B  C 2
5  C  A 3
6  C  B 2
> df[!duplicated(t(apply(df, 1, sort))), ]
V1 V2 n
1  A  B 1
2  A  C 3
4  B  C 2

最新更新