r语言 - 我如何导出textstat_simil文档而不丢失观察值或变量?



我是quanteda的新手,我在导出文件时遇到了问题。我正在比较两个文档,"dfm_latam"one_answers"dfm_coses",前者有超过27k个观测值,后者由两个语料库组成,其中的文本要与dfm_latam数据库的27k个观测值中的每一个进行比较。

corpus_cosine_2 <- corpus(cosine_2_pdf)
corpus_cosines <- corpus_cosine_1 + corpus_cosine_2 
dfm_cosines <- dfm(corpus_cosines, case_insensitive = TRUE)

corpus_latam <- corpus(latam_review)
docvars(corpus_latam, "Text") <- names(corpus_latam$text)
dfm_latam <- dfm(corpus_latam, case_insensitive = TRUE)

simil_latam <- textstat_simil(dfm_latam, dfm_cosines, method = "cosine", margin = "documents", case_insensitive = TRUE)
view(simil_latam)

R中的view()函数为我提供了前1000行,一切正常。dfm_cos中的两个数值变量都出现了。但是,当我尝试将其导出为Excel文档时,输出看起来与view() 1000行预览完全不同。缺少一个变量,并且.xlsx输出只显示"corpus_cosine_1' "结果。dfm "dfm_cos "在"corpus_cosine_1"one_answers";corpus_cosine_2"。为什么在导出时发生这种情况?

openxlsx::write.xlsx(simil_latam, file = "F:\path\simil_latam.xlsx")

因此,我尝试与view()函数一起导出:

openxlsx::write.xlsx(view(simil_latam), file = "F:\path\simil_latam.xlsx")

对于这个write.xlsx(view()),显示的变量刚刚好,但是我只导出了27000多个观测值中的1000个。如何自动导出表中所有变量的观测值?

您需要将textstat_simil对象转换为更类似电子表格的对象。试着

as.matrix(simil_latam)

在调用write.xlsx()之前,或者如果您喜欢这种格式,

as.data.frame(simil_latam)

我建议您在导出它们之前检查这两个强制对象,并且还要查看这些方法的每个方法的帮助函数(在quantedda .textstats中找到)。包).

相关内容

  • 没有找到相关文章

最新更新