Azure Data Lake store- 将 JSON 转换为 CSV



我们在 Azure 数据湖存储中拥有大小为 ~ 100 GB 的 JSON 文件。我们需要将它们转换为 CSV 文件,并保存到同一 Azure 数据湖存储中的其他文件夹。有哪些选项可用?

你有几个选择。这通常是一个简单的两步过程:提取和输出。

一个。您可以运行 ADLA/U-SQL 作业来执行此操作。下面是 U-SQL 中的 JSON 提取器示例https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats

二.另一种选择是创建 HDInsight 群集来转换数据。您可以使用您选择的任何应用程序。下面是有人在PIG中执行此操作的示例: https://acadgild.com/blog/converting-json-into-csv-using-pig/

我已经在 Azure 数据工厂中尝试过这个,它很简单,只需零编码。源和接收器都是 ADLS。通过简单的一对一映射,管道中没有任何变化。我们不关心性能,因为这对我们来说是一个批处理作业,下面是性能的快速统计数据。

> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows:
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement:
> 03:03:41

最新更新