设置OpenNLP
下载Tokenizer数据并将其保存到此目录。
wget http://opennlp.sourceforge.net/models-1.5/en-token.bin
这是谷歌在这里问我的
我不知道OpenNLP是什么,所以我在谷歌上搜索了一下。
这是Apache在他们的Setup OpenNLP页面上说的:
如果安装了诸如NetBeans或Eclipse之类的IDE会让你的发展更容易。然而,勇敢者继续。
我有Intellij NetBeans,我该如何设置它
当在Intellij中使用maven构建并尝试运行此示例时,我得到的错误是:
java.io.FileNotFoundException: en-token.bin (The system cannot find the file specified)
当我试图继续使用谷歌文档时,我在这一行失败了:
java -cp target/vision-text-1.0-SNAPSHOT-jar-with-dependencies.jar com.google.cloud.vision.samples.text.TextApp data/
出现错误:
Error: Could not find or load main class com.google.cloud.vision.samples.text.TextApp
OpenNLP似乎只需要Tokeniser.bin文件-这只是库用来标记文本的二进制文件(例如,将句子拆分为单词)。看起来你不需要这个库中的任何其他东西——如果你在谷歌视觉pom文件中查看(https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/vision/text/pom.xml)您将看到它们依赖于OpenNLP JAR,所以在这里您只是为该库获取预先训练的资源。
假设你已经克隆了GitHub repo,并成功运行了他们提到的maven命令:
mvn clean compile assembly:single
然后,下载的文件(en-token.bin
)应该被复制到项目目录的根目录(与pom.xml相同的位置,也是运行java命令的位置)。
如果设置是这样的,那么它应该可以正常工作。