ADF/Dataflow-将多个CSV转换为Parquet



在ADLS Gen2中,TextFiles文件夹有3个CSV文件。每个文件中的列名不同。

我们需要将所有3个CSV文件转换为3个拼花文件,并将其放入ParquetFiles文件夹

我尝试使用"复制活动",但它失败了,因为列名中有空格,并且拼花地板文件不允许使用

为了删除空格,我使用了数据流:源->选择(用列名称中的下划线替换空格(并下沉。这对一个文件有效。当我尝试对所有3个文件执行此操作时,它尝试合并3个文件,并生成一个数据不正确的文件。

如何解决这个问题,主要是从所有文件的列名中删除空格。这里还有其他选择吗?

Pipeline:ForEach活动(在文件夹中的CSV文件上循环,并将当前迭代项作为参数发送到数据流(->具有指向该文件夹的源的数据流活动(参数化源路径中的文件名(

我创建了两个数据集,一个是通配符格式的csv,另一个是镶木地板。我使用数据复制活动,使用镶木地板数据集作为汇点,使用csv数据集作为源。我将复制行为设置为"合并文件"。

相关内容

  • 没有找到相关文章

最新更新