Apache Tika 语言检测似乎无法正常工作



我正在使用Python的Tika语言库加载一个带有句子"Bonjour,ça va?"的法语文本文件,但它发现了"ca"而不是"fr"。

>>> from tika import language
>>> language.from_file('my/path/test')
'ca'

我目前正在使用它pip install tika所以使用默认设置。

加泰罗尼亚语非常接近法语,该短语在两种语言中都是相同的。 任一标识都是正确的;蒂卡做得很好...迄今。

最新更新