谁能帮我用斯坦福核心nlp在java中标记中文文本?这是我到目前为止的代码:
File file = new File("example.txt");
file.createNewFile();
FileWriter fileWriter = new FileWriter(file);
fileWriter.write("这是很好");
fileWriter.flush();
fileWriter.close();
FileReader fileReader = new FileReader(file);
InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");
CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);
String nextToken = "";
while((nextToken = chineseTokenizer.getNext())!=null)
System.out.println(nextToken);
但是不是得到3个单独的标记,而是得到整个句子作为单个标记。有人能帮我一下吗?
CHTBTokenizer
用于PTB格式的选区树标记。
对于纯中文文本,你必须使用斯坦福大学提供的分词器。你可以在斯坦福分词器页面上找到更多信息和下载链接。