通过添加适当的间距规范化字符串



对于stackoverflow来说可能是一个很宽泛的问题但是现在,

我正在尝试规范化句子中的单词,例如:

输入:

  • 我通过良好的ASDWEQ开发地理分散的团队。

(注意之间的空间在地理上分散)

  • 我通过良好的ASDWEQ发展地理分散的团队。

因为使用外部API是不可能的(例如使用google API)。我需要设计我们的内部Java API

一个明显而朴素的解决方案是这样的:

for all word in sentence do:
   if word is in dictionary then ignore
   else:
        if word is reduce-able to a set of dictionary keywords then split
        else ignore
od;

所以在我开始使用这种方法之前,我的问题是,是否有更好的方法?例如一些开源库,或者甚至不同的方法?

你看过Flex和Bison了吗?它有助于创建扫描器并定义用于文本处理的模式,在您的情况下,您应该找到将解析器映射到现有字典的技巧。

最新更新