我需要一个稳定的Java库,我可以向它传递一个巨大的字符串(例如,《白鲸》中的几个章节),并获得类似"字数"的统计数据:
- 段落数
- 句子数量
- 字数
- 字符数
最好是可以国际化/本地化但不需要的东西。我以为Apache Commons会有这样的东西,但经过彻底搜索,它没有。
我可以自己写这篇文章,但可能会很麻烦,需要很多时间;另外,如果轮子已经存在,我不想重新发明。我正在考虑使用Apache Tika,但无法确认它是否能满足我的需求。它似乎可以处理字数,但其他的就不行了。提前谢谢。
看看Apache Tika。它可能满足您的需求