UID_ISO_FIPS_LookUp_Table.csv 396 KiB 05-11-2021.csv 630 KiB https://ghoapi.azureedge.net/api 476 KiB
我创建了一个大型spark笔记本,并在Azure Synapse中成功运行。然后,我创建了一个新的管道,其中有一个指向现有spark笔记本的新笔记本活动。我触发了它,它失败了,并显示错误消息:
ErrorCode=FlowRunSizeLimitExceeded, ErrorMessage=Triggering the pipeline failed
due to large run size. This could happen when a run has a large number of
activities or large inputs used in some of the activities, including parameters.
这条管道中只有一项活动;所以,这不可能是超出的活动数量。我在谷歌上搜索了流量跑步活动的大小限制,但没有结果。笔记本活动的流量运行大小限制是多少?
以下是信息:
分组大小我能够在一个小的Spark池中导入带有以下Python代码的.csv:
%%pyspark
df = spark.read.load('abfss://someContainer@somestorageAccount.dfs.core.windows.net/raw/csv/05-11-2021.csv', format='csv'
, header = True
)
display(df.limit(10))
df.createOrReplaceTempView("tmp")
将其保存为临时视图允许您编写一些传统的SQL来查询数据帧,例如
%%sql
SELECT SUM(deaths) xsum
FROM tmp