pyspark databricks代码检查零字节json文件



我的主笔记本识别JSON文件并调用zeroByteCheck函数。我的zeroByteCheck函数应该检查传入的文件是否有数据,如果它有数据,那么它应该调用另一个函数,否则它应该停止进程和电子邮件。请帮我写代码。

def ZeroByteCheck(path):
data =spark.read.json(path)
if(len(data.head(1))==0):
email();
else:
function();
def function(path):
print("file is not null")
def email():
print("zerobyte file, sending an email")

这是pyspark代码的正确方式吗?

只要您知道路径,并且您正在使用Databricks,您可以按以下方式检查它们:

# check 0 records
spark.read.json(path).count()
# check file size
dbutils.fs.ls(path)
# Output
# [FileInfo(path='dbfs:/tmp/my_file.txt', name='my_file.txt', size=40)]

最新更新