Nifi:使用来源数据审计数据



嗨,我是nifi的新手,我遵循了这里的教程来理解来源存储库内容并将其移出以进行审计。但是我有几个问题。

  1. 来源数据的主要用途是了解一段数据究竟发生了什么。但这里的数据是流文件。我们应该如何理解使用流文件的特定数据发生了什么?

  2. 最佳实践是始终将数据来源数据从一个nifi发送到另一个?为什么不使用SiteToSiteProvenanceReportingTask发送到相同nifi实例中的端口并从中提取它?

  3. 可以用来发送这些数据进行审计的最佳工具是什么?

希望这能回答你的问题:

  1. 您可以通过多种方式导出出处数据,要从出处事件中提取流文件的内容,相信您必须获得"内容声明"。对于流文件,不确定如何工作。因为内容声明是在当前系统中没有流文件使用它时回收的,所以当内容存储库中不再存在内容时,我认为您无法查询出处事件的内容。有些组件会为遇到的任何错误/状态添加属性。

  2. 您当然可以使用SiteToSiteProvenanceReportingTask将来源数据从集群发送回自身,您可能只是想过滤掉处理来源数据的输入端口和进程组。

  3. 数据来源有时是一个图形问题,但事件本身通常是有用的(例如,不需要知道流),因此可以对事件本身进行分析。我已经将事件发送到Hive表,然后能够用HiveQL做一些事情,比如计算连接上的预测反压(在我们将其添加到NiFi适当之前)

最新更新