使用Pandas投掷错误在Python中编写UDF



我们正在尝试在Python中编写Hive的UDFS来清洁数据。我们尝试的UDF是使用Pandas,它正在抛出错误。

当我们尝试使用其他python代码而没有熊猫时,它可以正常工作。请帮助理解问题。在下面提供熊猫代码:

我们已经尝试了各种熊猫的方式,但不幸的是没有运气。由于没有熊猫的其他python代码正常工作,我们感到困惑为什么失败?

import sys
import pandas as pd
import numpy as np
for line in sys.stdin:
    df = line.split('t')
    df1 = pd.DataFrame(df)
    df2=df1.T
    df2[0] = np.where(df2[0].str.isalpha(), df2[0], np.nan)
    df2[1] = np.where(df2[1].astype(str).str.isdigit(), df2[1], np.nan)
    df2[2] = np.where(df2[2].astype(str).str.len() != 10, np.nan, 
    df2[2].astype(str))
    #df2[3] = np.where(df2[3].astype(str).str.isdigit(), df2[3], np.nan)
    df2 = df2.dropna()
    print(df2)

我得到此错误:

FAILED: Execution Error, return code 20003 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. An error occurred when trying to close the Operator running your custom script.
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   HDFS Read: 0 HDFS Write: 0 FAIL
Total MapReduce CPU Time Spent: 0 msec

我认为您需要查看详细的作业日志以获取更多信息。我的第一个猜测是熊猫没有安装在数据节点上。

如果您打算将依赖关系捆绑在一起:https://stackoverflow.com/a/2869974/7379644

,此答案看起来适合您:

相关内容

  • 没有找到相关文章

最新更新