我的源代码是Azure数据湖中的一个目录,大约有70,000个JSON文件。每个文件都有特定的属性,其中一个属性是复杂的Node
元素数组。总的来说,JSON文件有大约1300万个这样的Node
元素。
使用Azure数据工厂和数据流,我想在每个JSON文件中平整化数组,并将它们作为行插入到Kusto数据库中。
关于"一般用途"集成单元出现内存不足错误。在内存优化的实例上,作业运行了大约40分钟,然后失败,显示以下消息:
What I tried:
- 增加Kusto sink的超时时间。设置为36,000秒(10小时)。
- 增加计算大小到8+8内存优化。
- Kusto集群配置为最小实例数为2,最大实例数为4,但我看不到任何扩展事件。
我有什么选择来优化摄入?如果需要其他信息,请在评论中告诉我。
目标ExportNodesToKusto操作失败:{"StatusCode":"DFExecutorUserError";Message"原因:在水槽'KustoNodesSink':试图摄取超时requestId:"a23025d4-f1e7-48cd-a5f9-a4d8dbaec64e","Details"shaded.msdataflow.com.microsoft.kusto.spark.exceptions.TimeoutAwaitingPendingOperationException:尝试摄取requesttid时超时:a23025d4-f1e7-48cd-a5f9-a4d8dbaec64e n 答shaded.msdataflow.com.microsoft.kusto.spark.datasink.KustoWriter anonfun ingestRowsIntoKusto美元1.美元(KustoWriter.scala: 201)应用 n 答shaded.msdataflow.com.microsoft.kusto.spark.datasink.KustoWriter anonfun ingestRowsIntoKusto美元1.美元(KustoWriter.scala: 198)应用 n 答scala.collection.Iterator class.foreach美元(Iterator.scala: 891) n 答scala.collection.AbstractIterator.foreach (Iterator.scala: 1334) n 答scala.collection.IterableLike class.foreach美元(IterableLike.scala: 72) n 答scala.collection.AbstractIterable.foreach (Iterable.scala: 54) n 答shaded.msdataflow.com.microsoft.kusto.spark.datasink.KustoWriter .ingestRowsIntoKusto美元(KustoWriter.scala: 198) n 答shaded.msdataflow.com.microsoft.kusto.spark.datasink.KustoWriter .ingestToTemporaryTableByWorkers美元(KustoWriter.scala: 247) n 答shaded.msdataflow.com.microsoft.kusto.spark.datasink.KustoWriter .ingestRowsIntoTem"美元;}
似乎它在接收器上遇到了瓶颈,所以库斯托方面的资源是不够的。尝试进一步增加库斯托方面的资源。如果它不起作用,请尝试创建一个支持票据,因为需要更深入地查看这些runid,可能需要Data Explorer团队的进一步帮助。