字符串哈希的随机性应通过 PYTHONHASHSEED 禁用

>我在纱线模式下使用火花，运行时有问题 pyspark --master yarn 在python3.5下，当我运行这样的代码时 user_data = sc.textFile("/testdata/u.user") user_fields = user_data.map(lambda line: line.split("|")) num_genders = user_fields.map(lambda fields: fields[2]).distinct().count()结果显示

File "/data/opt/spark-2.1.0-bin-hadoop2.6/python/pyspark/rdd.py", line 1753, in add_shuffle_key
File "/data/opt/hadoop-2.6.0/tmp/nm-local-dir/usercache/jsdxadm/appcache/application_1494985561557_0005/container_1494985561557_0005_01_000002/pyspark.zip/pyspark/rdd.py", line 74, in portable_hash
raise Exception("Randomness of hash of string should be disabled via PYTHONHASHSEED environ=")

我

尝试但无法解决，你能帮我吗

将spark.executorEnv.PYTHONHASHSEED 0包含在您的spark-defaults.conf中(在您的 Spark ./conf 目录中(。这应该有效！

这是 Spark 2.1 中的一个问题，在 2.2 中得到了解决。如果您无法升级或无法访问 spark-defaults.conf，您可以使用

export SPARK_YARN_USER_ENV=PYTHONHASHSEED=0

在提交作业之前。

相关内容

最新更新

热门标签：