Apache Mahout的西班牙语文本



>有谁知道Apache Mahout是否适用于西班牙语文本?我需要对西班牙语的报纸文章进行一些聚类,并且没有很多工具可以做到这一点。我认为 Mahout 是一个很酷的框架来做到这一点,但它在西班牙语文本上工作很好吗?

为什么不呢?您可以使用脚本seq2sparse命令bin/mahout并使用-a选项指定相应的Lucene分析器(org.apache.lucene.analysis.es.SpanishAnalyzer)。参见《驯象师在行动》一书的第8章(第199-200页...)。

除此之外,您还可以使用现有分析器编写自己的分析器。本书包含许多示例,您可以在存储库中找到源代码。

最新更新