我想将Elasticsearch群集的内容复制到我的数据湖中以加入。目前,我正在这样做,每小时每小时扫描整个索引,并从中构建一套新的小栏。此过程缓慢,昂贵且在集群上硬,而刮擦正在进行中。
我假设Elasticsearch更容易创建快照,然后让数十个客户并行进行扫描呼叫。因此,我想对索引进行快照,在许多工人中水平拆分,并让这些工人产生parquet。
问题是我的群集由AWS的Elasticsearch服务托管,该服务不提供明文快照。我不知道如何读取标准快照格式而不将其加载到另一个Elasticsearch集群中。我希望能够在水平缩放工人池中阅读灯光或Java过程的快照。
是否可以在不加载Elasticsearch的情况下读取Elasticsearch快照?
es快照,读取必须加载数据,还可以将数据文件复制到新的ES数据路径,ES可以自动加载数据
PUT _snapshot/my_backup
{
"type": "fs",
"settings": {
"location": "/mount/backups/my_backup"
}
}