无法从Azure数据工厂读取Parquet文件(从Databricks Job/Notebook创建)



我正在阅读由Databricks在ADLS上创建的Parquet文件时出现错误。当我使用Databricks读取这些文件时,它工作得非常好,我能够从Databricks读取和写入数据到这些文件中。然而,对于DataFactory,它给出了以下错误。

Error: Parquet file contained column 'txn', which is of a non-primitive, unsupported type.

但是没有我从Databricks创建的txn列。

此错误主要是因为不支持的数据类型。当您传递到parquet文件中的列时,请确保您使用的是支持的数据类型。

parquet文件支持的数据类型映射请参考Microsoft文档。

当您在ADF中的拼花源文件中有复杂的数据类型时,您需要使用没有数据集模式的数据流。然后你可以使用结构体,映射,数组等:https://www.youtube.com/watch?v=Wk0C76wnSDE

最新更新