我正在使用azure- kuto -spark向kuto写入数据。这次写入的数据非常少。这个spark-kusto连接器使用批处理流。
但是我看到这个写有很高的延迟,运行大约8分钟。
从日志中我看到,这个高延迟是在暂存摄取部分。我看到创建了一个临时staging表,并通过多个作业将数据输入该表。只有在阶段性摄取完成后,数据才最终合并并写入到kusto表中。
谁能给点指针为什么这个小数据有这么多的延迟?
这可能是因为这里描述的Kusto表摄取策略https://github.com/Azure/azure-kusto-spark/blob/master/docs/KustoSink.md#performance-considerations
您可能需要修改默认摄取策略并将时间设置为小于默认值(5分钟)。参考此文档https://learn.microsoft.com/en-us/azure/data-explorer/kusto/management/batchingpolicy#defaults-and-limits