r语言 - 在python中创建"virtual"语料库



我需要从一个巨大的数据帧(或任何相当于r数据帧的python)中创建一个语料库,将其拆分为与用户名一样多的数据帧。

例如,我从这样的数据帧开始:

username    search_term
name_1      "some_text_1"
name_1      "some_text_2"
name_2      "some_text_3"
name_2      "some_text_4"
name_3      "some_text_5"
name_3      "some_text_6"
name_3      "some_text_1"
[...]
name_n      "some_text_n-1"

我想获得:

data frame 1
username    search_term
name_1      "some_text_1"
name_1      "some_text_2"
data frame 2
username    search_term
name_2      "some_text_3"
name_2      "some_text_4"

等等…

我已经向R提出了这个问题,但现在我意识到使用python NLTK对我来说可能是一个优势。我发现在R中我可以创建一个虚拟语料库。在python中是一样的吗?或者在python中还有其他方法可以解决这个问题吗?

要查看我如何在R中解决此问题,请参阅:

将一个巨大的数据帧拆分为许多较小的数据帧,以在r 中创建语料库

如何在r中将列表转换为语料库?

这是您在R 中的解决方案

我创建了一个类似的数据帧df

df <- data.frame(group = rep(1:6, each = 2) , value = 1:12)

以下是未来小数据的组索引和名称。帧

idx <- unique(df$group)
nms <- paste0('df', idx)

接下来,在for循环中,我创建这些小数据帧

for(i in idx){
  df_tmp <- df[df$group == i, ]
  do.call('<-', list(nms[i], df_tmp))
}

最新更新