elasticsearch附件插件性能改进



我是elasticsearch的新手,尝试使用elasticsearchatachment插件通过摄入管道解析pdf文件,但根据pdf大小1MB=2秒、5MB=15秒、10MB=25秒,解析pdf似乎需要很多时间,因此,请建议如何提高执行时间?

PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}
PUT my-index-000001/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}

感谢

这是一个昂贵的操作,并且会耗费资源,我将使用FSCrawler(https://fscrawler.readthedocs.io/en/fscrawler-2.9/)或其他Tika库从ES卸载整个操作;您可能能够并行完成许多事情,或者在数据准备好索引之前处理数据。

最新更新