中文标记器斯坦福核心nlp

谁能帮我用斯坦福核心nlp在java中标记中文文本?这是我到目前为止的代码:

File file = new File("example.txt");
   file.createNewFile();
   FileWriter fileWriter = new FileWriter(file);
   fileWriter.write("这是很好");
   fileWriter.flush();
   fileWriter.close();
   FileReader fileReader = new FileReader(file);
   InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");
   CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);
   String nextToken = "";
   while((nextToken = chineseTokenizer.getNext())!=null)
       System.out.println(nextToken);

但是不是得到3个单独的标记，而是得到整个句子作为单个标记。有人能帮我一下吗?

CHTBTokenizer用于PTB格式的选区树标记。

对于纯中文文本，你必须使用斯坦福大学提供的分词器。你可以在斯坦福分词器页面上找到更多信息和下载链接。

相关内容

最新更新

热门标签：