如何读取Elasticsearch快照



我想将Elasticsearch群集的内容复制到我的数据湖中以加入。目前,我正在这样做,每小时每小时扫描整个索引,并从中构建一套新的小栏。此过程缓慢,昂贵且在集群上硬,而刮擦正在进行中。

我假设Elasticsearch更容易创建快照,然后让数十个客户并行进行扫描呼叫。因此,我想对索引进行快照,在许多工人中水平拆分,并让这些工人产生parquet。

问题是我的群集由AWS的Elasticsearch服务托管,该服务不提供明文快照。我不知道如何读取标准快照格式而不将其加载到另一个Elasticsearch集群中。我希望能够在水平缩放工人池中阅读灯光或Java过程的快照。

是否可以在不加载Elasticsearch的情况下读取Elasticsearch快照?

es快照,读取必须加载数据,还可以将数据文件复制到新的ES数据路径,ES可以自动加载数据

PUT _snapshot/my_backup 
{
    "type": "fs", 
    "settings": {
        "location": "/mount/backups/my_backup" 
    }
}

最新更新