我正在使用以下代码读取Parquet的数据,然后应用SparkSQL。
data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table')
data.registerTempTable("table1")
sqlContext.sql("select id, col_A from table1").show(10)
+--------------------+--------------------+
| id| col_A |
+--------------------+--------------------+
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
|[35 32 34 44 46 4...|[33 45 34 43 31 4...|
+--------------------+--------------------+
但是,该表未显示id
和col_A
列的普通字符串。相反,它显示出类似二进制值的东西。如何确保结果显示常规字符串值?谢谢!
show
具有可选的参数截断,默认情况下,该参数设置为 true
。如果您想看到一切都继续进行show(10, truncate=false)
。请警告输出并不会很好。