Spark XML 解析 [英] Spark XML parsing

查看:83
本文介绍了Spark XML 解析的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用 com.databricks.spark.xml

Dataset<Row> df = spark.read().format("com.databricks.spark.xml")
            .option("rowTag", "row").load("../1000.xml");

df.show(10);

我得到的输出如下

++ ||
++
++

++ ||
++
++

我错过了什么吗?

这是我的示例 XML 行.

this is my sample XML row.

<row Id="7" PostTypeId="2" ParentId="4" CreationDate="2008-07-31T22:17:57.883" Score="316" Body="&lt;p&gt;An explicit cast to double isn't necessary.&lt;/p&gt;&#xA;&#xA;&lt;pre&gt;&lt;code&gt;double trans = (double)trackBar1.Value / 5000.0;&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&#xA;&lt;p&gt;Identifying the constant as &lt;code&gt;5000.0&lt;/code&gt; (or as &lt;code&gt;5000d&lt;/code&gt;) is sufficient:&lt;/p&gt;&#xA;&#xA;&lt;pre&gt;&lt;code&gt;double trans = trackBar1.Value / 5000.0;&#xA;double trans = trackBar1.Value / 5000d;&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;" />

非常感谢.

推荐答案

尝试在架构中的 XML 属性名称之前使用 _ 符号.如果它不起作用 - 尝试使用 @ 符号.观看示例,但提供了用于旧版 Spark.

Try to use _ symbol before an XML attribute name in your schema. If it is not working - try to use @ symbol. Watch example, but it is provided for old Spark version.

这篇关于Spark XML 解析的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆