首先,我知道存在类似的解决方案,但这个问题有些不同。
我有一个基于用户输入'n'(其中n>1和n<100(生成多个csv文件的过程。意味着用户可以生成任意数量的文件。
这些文件具有相同的列:
file1 -> Col1 Col2 Col3 Col4 Col5 output
file2 -> Col1 Col2 Col3 Col4 Col5 output
file3 -> Col1 Col2 Col3 Col4 Col5 output
这些文件存储在带有一些数据路径的azure blob中。
我想读取所有的文件并生成这样的结果文件:
Col1 Col2 Col3 Col4 Col5 output1 output2 output3
有什么方法可以动态地做到这一点吗。I.e不需要在数据流中创建多个源并将它们连接起来,因为生成的文件取决于用户,我无法对其进行硬编码
在这个解决方案过程中需要遵循多个步骤首先,我们需要将filePath添加为列接下来根据文件对数据进行排名Path在工作台上执行枢轴操作。执行工作基于三个主要步骤。
- 数据集的来源。(csv文件列表(
- Rank–按列对行进行排名
- 数据透视–将行值透视到列中并对列进行分组,最后聚合数据