在Databricks中将XML字符串转换为Spark Dataframe [英] Converting XML string to Spark Dataframe in Databricks

查看:173
本文介绍了在Databricks中将XML字符串转换为Spark Dataframe的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何从包含XML代码的字符串中构建Spark数据框?

how can I build a Spark dataframe from a string which contains XML code?

如果代码保存在文件中,我可以轻松做到

I can easily do it, if the code is saved in a file

dfXml = (sqlContext.read.format("xml")
           .options(rowTag='my_row_tag')
           .load(xml_file_name))

但是如上所述,我必须从包含以下内容的字符串构建数据帧常规XML。

However as said I have to build the dataframe from a string which contains regular XML.

谢谢

毛罗

推荐答案

在Scala上,类 XmlReader可用于将RDD [String]转换为DataFrame:

On Scala, class "XmlReader" can be used for convert RDD[String] to DataFrame:

    val result = new XmlReader().xmlRdd(spark, rdd)

如果数据框作为输入,可以轻松转换为RDD [String]。

If you have Dataframe as input, it can be converted to RDD[String] easily.

这篇关于在Databricks中将XML字符串转换为Spark Dataframe的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆