每个条目的文本列最多可容纳100个字母。如何编写一个能识别单词"Approved"或"Rejected"的脚本。有时单词会是"-已批准"、">已批准"、"已批准"或"批准"。我希望它用"LIKE"类型的函数来解释每个场景。
我正在寻找两个词,因此"OR"可能适用于此,而不是范围。
R有一对文本相似性函数agrep
和agrepl
,当给定向量时,它们在返回向量方面类似于grep
和grepl
。agrepl函数是逻辑的,长度与输入相同,因此在以下情况下效果更好:
agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)
这可以用于对数据帧的匹配行进行逻辑索引。或者你可以对逻辑向量求和得到一个计数。建议:用一个例子来编辑你的问题,用于演示。
还有一些附加参数可用于调整近似匹配的紧密性。