我有一个胶水工作,正在写一个动态帧到s3中的CSV,但由于某种原因,空被删除。解决这个问题的好办法是什么?
CSV格式的期望输出:
user_id, example_assignment, example_product
null, null, null
null, llama, null
null, null, feed
当前CSV格式输出:
user_id, example_assignment, example_product
,,
,llama,
,,feed
Glue Write Csv:
glueContext.getSinkWithFormat(
connectionType = "s3",
options = example_path,
transformationContext = "example_transformation",
format = "csv"
).writeDynamicFrame(exampleDF)
所以目前Glue不像Spark那样在写时提供emptyValues选项。
你可以直接使用Spark API,或者预先填充这些空值,例如,前面提到的Glue中的FillMissingValue类。