如何使用"]|["分隔符在pyspark中读取文件



数据如下所示:

pageId]|[page]|[Position]|[sysId]|[carId 0005]|[bmw]|[south]|[AD6]|[OP4

至少有 50 列和数百万行。

我确实尝试使用以下代码来读取:

dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")

它给了我以下错误:

IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['

您可以在RDD中使用多个字符作为分隔符

你可以试试这个代码

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
conf = SparkConf().setMaster("local").setAppName("test")
sc = SparkContext(conf = conf)
input = sc.textFile("yourdata.csv").map(lambda x: x.split(']|['))
print input.collect()

您可以使用toDF()函数将RDD转换为数据帧(如果需要),并且如果要这样做,请不要忘记指定架构

尝试使用转义序列

dff = (sqlContext.read
                 .format("com.databricks.spark.csv")
                 .option("delimiter", "\]\|\[")
                 .load(trainingdata+"part-00000")

相关内容

  • 没有找到相关文章

最新更新