apache-spark-xml相关内容

将父架构列的一部分添加到 spark 数据框中嵌套 json 中的子项

我有下面的 xml,我正试图将其加载到 spark 数据框. 主要标签是然后有两部分,第一部分是标题(),另一部分是正文() 和 正文中的详细信息对于 中的所有行都是相同的.env:Body. 由此我想创建两个数据框. 一个用于 ,第二个用于 对于两个数据框,action="Overwrite" 将与公共列相同. 还因为 ..
发布时间:2021-11-14 22:07:19 其他开发

在Spark 2.1.0中读取大文件时出现内存不足错误

我想使用spark来将大型(51 GB)XML文件(在外部HDD上)读入数据帧(使用但是不管我如何调整,我总是得到java.lang.OutOfMemoryError: Java heap space. 我想了解为什么不增加分区数量会阻止OOM错误 不是应该将任务分成更多的部分,以使每个部分都较小并且不会引起内存问题吗? (Spark不可能试图将所有内容都塞进内存,如果不合适的话 ..