如何处理 Azure 数据工厂中的变量列标题(行位置)



我们从多个客户那里摄取数据,无法控制数据的格式。数据属于同一主题,但文件名、列名、标题和行标题都是可变的。数据流映射中的架构漂移功能看起来它将处理变量文件和列名称,但我不确定如何最好地处理列标题可能位于第 1 行、第 2 行或第 10 行等的事实。之前我们使用了一些 Python 代码来解决这个问题,数据工厂中是否有任何功能可以适应这种级别的可变性?

您将需要一个规则来确定哪一行具有标题。然后,可以使用筛选器转换从数据行中筛选出标题行。

但是,如果您需要流中标头的名称,则需要首先通过单独的数据流运行该文件,该数据流以标题行作为第一行重写文件。

为此,可以向数据流添加 2 个源,这两个源都指向同一文件。然后,从一个源中筛选出标题行,并仅筛选第二个源中的标题行。

将这两个流重新合并在一起,并写入接收器中的新文件。

相关内容

  • 没有找到相关文章

最新更新