使用SparkXML从XML提取标签属性

我正在使用com.databricks.spark.xml加载XML文件，我想使用SQL上下文读取标签属性。

XML：

<Receipt>
<Sale>
<DepartmentID>PR</DepartmentID>
<Tax TaxExempt="false" TaxRate="10.25"/>
</Sale>
</Receipt>

通过，

加载文件

val df = sqlContext.read.format("com.databricks.spark.xml").option("rowTag","Receipt").load("/home/user/sale.xml");
df.registerTempTable("SPtable");

打印模式：

root
 |-- Sale: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- DepartmentID: long (nullable = true)
 |    |    |-- Tax: string (nullable = true)

现在，我想从税收中提取标签属性tufexempt。我尝试了以下代码，这给了我错误。

val tax =sqlContext.sql("select Sale.Tax.TaxExempt from SPtable");

错误：

org.apache.spark.sql.AnalysisException: cannot resolve 'Sale.Tax[TaxExempt]' due to data type mismatch: argument 2 requires integral type, however, 'TaxExempt' is of string type.; line 1 pos 7

任何帮助都将受到高度赞赏。

dataframe的第一个打印模式，在我的情况下，它像下面的Spark XML版本0.3.3

一样打印

|-- Sale: struct (nullable = true)
|    |-- DepartmentID: string (nullable = true)
|    |-- Tax: struct (nullable = true)
|    |    |-- #VALUE: string (nullable = true)
|    |    |-- @TaxExempt: boolean (nullable = true)
|    |    |-- @TaxRate: double (nullable = true)

然后使用以下查询选择XML属性，在注册诱人的

之后

sqlcontext.sql（" select sale.tax ['@taxrate']作为temaptable的税收刷"）。show（）;

下面是结果

|税收|

-----

| 10.25 |

从0.4.1开始，我认为默认情况下的属性以强（_）开头，在这种情况下，只需使用_而不是@在查询属性时。

相关内容

最新更新

热门标签：