在R中,我有一个带文本的列.我如何用R写一个计算特定单词频率的脚本



每个条目的文本列最多可容纳100个字母。如何编写一个能识别单词"Approved"或"Rejected"的脚本。有时单词会是"-已批准"、">已批准"、"已批准"或"批准"。我希望它用"LIKE"类型的函数来解释每个场景。

我正在寻找两个词,因此"OR"可能适用于此,而不是范围。

R有一对文本相似性函数agrepagrepl,当给定向量时,它们在返回向量方面类似于grepgrepl。agrepl函数是逻辑的,长度与输入相同,因此在以下情况下效果更好:

agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)

这可以用于对数据帧的匹配行进行逻辑索引。或者你可以对逻辑向量求和得到一个计数。建议:用一个例子来编辑你的问题,用于演示。

还有一些附加参数可用于调整近似匹配的紧密性。

最新更新