将具有无效字符的嵌套字段从Spark 2导出到Parquet [英] Exporting nested fields with invalid characters from Spark 2 to Parquet

查看:88
本文介绍了将具有无效字符的嵌套字段从Spark 2导出到Parquet的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用spark 2.0.2将JSON文件转换为镶木地板.

I am trying to use spark 2.0.2 to convert a JSON file into parquet.

  • JSON文件来自外部来源,因此该模式在到达之前无法更改.
  • 该文件包含属性映射.在收到文件之前,属性名称未知.
  • 属性名称包含无法在实木复合地板中使用的字符.
{
    "id" : 1,
    "name" : "test",
    "attributes" : {
        "name=attribute" : 10,
        "name=attribute with space" : 100,
        "name=something else" : 10
    }
}

空格和等号都不能用在实木复合地板中,出现以下错误:

Both the space and equals character can't be used in parquet, I get the following error:

 org.apache.spark.sql.AnalysisException: Attribute name "name=attribute" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.; 

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆