我需要从一个巨大的数据帧(或任何相当于r数据帧的python)中创建一个语料库,将其拆分为与用户名一样多的数据帧。
例如,我从这样的数据帧开始:
username search_term
name_1 "some_text_1"
name_1 "some_text_2"
name_2 "some_text_3"
name_2 "some_text_4"
name_3 "some_text_5"
name_3 "some_text_6"
name_3 "some_text_1"
[...]
name_n "some_text_n-1"
我想获得:
data frame 1
username search_term
name_1 "some_text_1"
name_1 "some_text_2"
data frame 2
username search_term
name_2 "some_text_3"
name_2 "some_text_4"
等等…
我已经向R提出了这个问题,但现在我意识到使用python NLTK对我来说可能是一个优势。我发现在R中我可以创建一个虚拟语料库。在python中是一样的吗?或者在python中还有其他方法可以解决这个问题吗?
要查看我如何在R中解决此问题,请参阅:
将一个巨大的数据帧拆分为许多较小的数据帧,以在r 中创建语料库
如何在r中将列表转换为语料库?
这是您在R 中的解决方案
我创建了一个类似的数据帧df
df <- data.frame(group = rep(1:6, each = 2) , value = 1:12)
以下是未来小数据的组索引和名称。帧
idx <- unique(df$group)
nms <- paste0('df', idx)
接下来,在for
循环中,我创建这些小数据帧
for(i in idx){
df_tmp <- df[df$group == i, ]
do.call('<-', list(nms[i], df_tmp))
}