Python UDF-导入/读取外部文件



我想将其他python/csv文件导入到我的python-udf中以执行一些操作
比如,
将表数据(以流形式逐行流入)与外部.csv行进行比较
当我试图读取.csv文件的数据时,它会给我一个错误

IO错误:文件/home/abc/xyz/myfile.csv不存在

虽然当代码作为常规python脚本(不像udf)编写时,它运行得非常好

如果我理解正确的话。你可以试试ADD FILE[您的完整文件路径]或添加FILES[您的目录路径]。

因为在引用集群上的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。你可以看看。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli

注意语法!它可能会导致许多问题,不幸的是,查询语言解释器无法显示问题的来源,它只显示一些通用的错误报告。

看看这里同样的问题,它是由寻址文件时的语法问题引起的!

访问Python UDF 中的外部文件

最新更新