Spark DataFrame-使用SQL读取管道划界文件

基于spark -load -load csv文件作为dataframe？

是否可以使用SQL指定选项来设置定界符，null字符和Quote？

val df = spark.sql("SELECT * FROM csv.`csv/file/path/in/hdfs`")

我知道可以使用spark.read.format("csv").option("delimiter", "|")完成，但是理想情况下我不必这样做。

更新的信息

看来我必须使用背键通过路径。

当我尝试通过OPTIONS

时

== SQL ==
SELECT * FROM 
csv.`csv/file/path/in/hdfs` OPTIONS (delimiter , "|" )
-----------------------------------^^^
Error in query:
mismatched input '(' expecting {<EOF>, ',', 'WHERE', 'GROUP', 'ORDER', 
'HAVING', 'LIMIT', 'JOIN', 'CROSS', 'INNER', 'LEFT', 'RIGHT', 'FULL', 
'NATURAL', 'LATERAL', 'WINDOW', 'UNION', 'EXCEPT', 'MINUS', 
'INTERSECT', 'SORT', 'CLUSTER', 'DISTRIBUTE', 'ANTI'}

althoguh不是一行灵魂，以下可能对您有用：

spark.sql("CREATE TABLE some_table USING com.databricks.spark.csv OPTIONS (path "csv/file/path/in/hdfs", delimeter "|")");
val df = spark.sql("SELECT * FROM some_table");

当然，如果要直接在some_table上执行一些SQL操作，则可以跳过加载到DataFrame的第二步。

相关内容

最新更新

热门标签：