用于文本分析和计数的Java库



我需要一个稳定的Java库,我可以向它传递一个巨大的字符串(例如,《白鲸》中的几个章节),并获得类似"字数"的统计数据:

  • 段落数
  • 句子数量
  • 字数
  • 字符数

最好是可以国际化/本地化但不需要的东西。我以为Apache Commons会有这样的东西,但经过彻底搜索,它没有。

我可以自己写这篇文章,但可能会很麻烦,需要很多时间;另外,如果轮子已经存在,我不想重新发明。我正在考虑使用Apache Tika,但无法确认它是否能满足我的需求。它似乎可以处理字数,但其他的就不行了。提前谢谢。

看看Apache Tika。它可能满足您的需求

最新更新