John Snow Labs的NLP库建立在Apache Spark和Spark ML库之上。 它的所有示例都是用scala和python提供的。它支持Java吗?如果是,我在哪里可以找到相关指南?如果没有,是否有任何计划支持Java?
一般来说,Scala 库只需要一个专用的 Java API,如果它们的 API(而不是实现)公开了没有 Java 等效功能的功能。不幸的是,标准的Scala函数类型就是一个例子,至少在Scala 2.12和Java 8之前是这样。例如,Spark 大量使用ClassTag
和隐式,这使得很难直接从 Java 使用。
但是这个库是基于Spark ML的,它没有单独的Java API,从快速浏览来看,似乎不需要一个(至少对于新的基于DataFrame
的API)。您可以在 Java 中看到它的示例 https://spark.apache.org/docs/2.3.0/ml-pipeline.html.
因此,NLP库只是创建Transformer
,Pipeline
和其他Spark ML类型的实例,并且创建它们的代码可以简单地转换为Java。您只需要知道Array(...)
对应于new T[] { ... }
(其中T
是参数的类型)。由此看来,它似乎不需要Java API,即使它可以从Java中给出示例中受益。不幸的是,它似乎甚至没有提供 Scaladoc 链接,所以我可以看到 API 中是否存在从 Java 使用有问题的东西。