对于MapReduce作业,我正在尝试删除所有非字母数字字符,如果它不是首字母缩略词,请将其词干并降低;改变生活";。这就是我到目前为止所做的,我应该如何改变它?
String line = value.toString();
StringTokenizer itr = new StringTokenizer(line);
while (itr.hasMoreTokens())
{
String token = stem(caseFold(itr.nextToken()));
token=token.replaceAll("^[^a-zA-Z0-9]*|[^a-zA-Z0-9]*$", "");
....
}
是否可以使用公开可用的字典API,如dictionaryapi.com