删除所有非字母数字字符,但允许使用多单词术语



对于MapReduce作业,我正在尝试删除所有非字母数字字符,如果它不是首字母缩略词,请将其词干并降低;改变生活";。这就是我到目前为止所做的,我应该如何改变它?

String line = value.toString();

StringTokenizer itr = new StringTokenizer(line);

while (itr.hasMoreTokens())
{ 
String token = stem(caseFold(itr.nextToken())); 
token=token.replaceAll("^[^a-zA-Z0-9]*|[^a-zA-Z0-9]*$", "");

....
}

是否可以使用公开可用的字典API,如dictionaryapi.com

最新更新