如何对r中的文本列表进行标记?

我有一个从10个文档中导入的文本列表，例如:

library(quanteda)
library(readtext)
path <- "the working direction"
doc1 <- readtext(paste0(path, "/*_XXX.docx"))

view(doc1)看起来像
[[1]] character(1)'some words'
[[2]] character(2)"some words">
…

现在，我需要对这个文本列表进行标记，所以我使用

tok_cov1 <- doc1 %>% 
tokens(remove_punct = TRUE,
remove_numbers = TRUE,
remove_symbols = TRUE) %>% 
tokens_tolower(keep_acronyms = TRUE) %>% 
tokens_wordstem() %>% 
tokens_remove(pattern = stopwords("en"))

代码没有返回任何错误，但是不会标记任何东西。doc1看起来仍然和未标记的一样。

我知道将'doc1'指定为'doc1[[n]]'将返回相应文本中的令牌，例如，

tok_cov1 <- doc1[[1]] %>% 
tokens(remove_punct = TRUE,
remove_numbers = TRUE,
remove_symbols = TRUE) %>% 
tokens_tolower(keep_acronyms = TRUE) %>% 
tokens_wordstem() %>% 
tokens_remove(pattern = stopwords("en"))

然而，我需要它在每个文本上工作，而不是一个接一个地做文本。非常感谢任何帮助。谢谢你。

quantedacorpus()函数直接作用于readtext()创建的对象。所以在你的例子中，只需使用:

library(quanteda)
corpus(doc1) %>%
tokens()

添加您首选的标记化选项。

相关内容

最新更新

热门标签：