小贝子编程

如何在R中对这两个数据帧进行哈希

本文关键字：两个数据帧哈希 r bioinformatics
更新时间 : 2023-09-21
英文 : How do I hash in these 2 dataframes in R?

所以我有来自两个不同数据帧的这两列(genome$V9和Impact4$INFO(，如下所示。

基本上，在每个Impact4$INFO行中都有一个值(结构类似于OE6AXXXXXXX，其中X是integer(，我想在genome$V9内的每一行中过滤该值。我知道这很复杂，因为两列中都有很多值。。。

谢谢

第1列

第2列

当结构一致时，可以很容易地从字符串中提取数字。如果你的结构是一致的，你可以尝试：

library(stringr)
test <- c("ID=OE6A002689", "ID=OE6A044524", "ID=OE6A057168TI")
str_extract(test, "[0-9]{6}")

输出为：

[1] "002689" "044524" "057168"

如果你想以此为基础过滤你的基因组数据，你可以尝试：

library(dplyr)
library(stringr)
ids <- str_extract(Impact4$INFO, "[0-9]{6}")
genome %>% 
mutate(ind = str_extract(V9, "[0-9]{6}")) %>% 
filter(ind %in% ids)

希望有帮助吗？否则，您必须提供一个可重复的示例(此处为考试后数据(。

相关内容

没有找到相关文章

最新更新