r语言 - 在python中创建"virtual"语料库 - r - Create a "virtual" corpus in python 小贝子编程网

我需要从一个巨大的数据帧（或任何相当于r数据帧的python）中创建一个语料库，将其拆分为与用户名一样多的数据帧。

例如，我从这样的数据帧开始：

username    search_term
name_1      "some_text_1"
name_1      "some_text_2"
name_2      "some_text_3"
name_2      "some_text_4"
name_3      "some_text_5"
name_3      "some_text_6"
name_3      "some_text_1"
[...]
name_n      "some_text_n-1"

我想获得：

data frame 1
username    search_term
name_1      "some_text_1"
name_1      "some_text_2"
data frame 2
username    search_term
name_2      "some_text_3"
name_2      "some_text_4"

等等…

我已经向R提出了这个问题，但现在我意识到使用python NLTK对我来说可能是一个优势。我发现在R中我可以创建一个虚拟语料库。在python中是一样的吗？或者在python中还有其他方法可以解决这个问题吗？

要查看我如何在R中解决此问题，请参阅：

将一个巨大的数据帧拆分为许多较小的数据帧，以在r 中创建语料库

如何在r中将列表转换为语料库？

这是您在R 中的解决方案

我创建了一个类似的数据帧df

df <- data.frame(group = rep(1:6, each = 2) , value = 1:12)

以下是未来小数据的组索引和名称。帧

idx <- unique(df$group)
nms <- paste0('df', idx)

接下来，在for循环中，我创建这些小数据帧

for(i in idx){
  df_tmp <- df[df$group == i, ]
  do.call('<-', list(nms[i], df_tmp))
}

r语言 - 在python中创建"virtual"语料库

相关内容

最新更新

热门标签：