R: 想要做一个字典检查,并删除中间不需要的空格,删除空格将使其成为一个合适的单词



我使用R进行文本挖掘,并且具有从不同文本列连接的数据。有些情况下,单词被一个空格分割,比如"functitioning"。我想检测所有这样的情况,并通过字典检查来消除两者之间的空格。我知道aspell中的splitWords函数,我想要一个与它完全相反的函数。

这里有一种方法,基于我发现的一些代码,但您需要提供一些示例文本,甚至只是伪代码来帮助其他人做出响应。

首先创建一个对象,该对象包含一组拼写正确的单词。然后,将单词向量与adist的集合进行比较,并将参数集与单个差异进行比较——理想情况下,是要删除的内部空格。我怀疑这是否能解决一切问题,但它可能会有所帮助。

sorted_words <- comments(sort(table(strsplit(tolower(paste(readLines("http://www.norvig.com/big.txt"), collapse = " ")), "[^a-z]+")), decreasing = TRUE))
correct <- function(*your vector*) { c(sorted_words[adist(*your vector*, sorted_words) <= min(adist(word, sorted_words), 2)], word)[1] }

然后使用correct函数。

最新更新