我目前正在SQL Server中运行文本搜索,这正在成为一个瓶颈,出于显而易见的原因,我想将内容转移到Elasticsearch,但是我知道我必须非规范化数据以获得最佳性能和可扩展性。
目前,我的文本搜索包括一些聚合和连接多个表以获得最终输出。连接起来的表不是那么大(每个表最多 20GB(,但会不定期更改(插入、更新、删除((其中两个每周一次,另一个每天按需x
次(。
我的计划是将Apache Kafka与Kafka Connect一起使用,以便从我的SQL Server读取CDC,将这些数据连接到Kafka并将其保留在Elasticsearch中,但是我找不到任何材料告诉我当数据持久化到Elasticsearch时如何处理删除。
默认驱动程序甚至支持此功能吗?如果没有,有什么可能性?Apache Spark,Logstash?
我不确定现在在 Kafka Connect 中是否已经可以做到这一点,但似乎这可以通过 Nifi 解决。
希望我理解需求,以下是使用标准 NiFi 处理器之一删除 Elasticsearch 记录的文档:
https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-elasticsearch-5-nar/1.5.0/org.apache.nifi.processors.elasticsearch.DeleteElasticsearch5/