apache-spark-sql相关内容

将 StructType 分解为 MapType Spark

在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{ ..
发布时间:2021-11-14 23:27:01 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..
发布时间:2021-11-14 23:26:51 其他开发

SQLITE_ERROR:通过 JDBC 从 Spark 连接到 SQLite 数据库时,连接已关闭

我正在使用 Apache Spark 1.5.1 并尝试连接到名为 clinton.db 的本地 SQLite 数据库.从数据库表创建数据框工作正常,但是当我对创建的对象执行某些操作时,我收到以下错误消息,其中显示“SQL 错误或丢失的数据库(连接已关闭)".有趣的是,我还是得到了手术的结果.知道我可以做些什么来解决问题,即避免错误吗? spark-shell 的启动命令: ../spar ..
发布时间:2021-11-14 23:26:30 数据库

使用 Spark Dataframe Scala 将 Array[Double] 列转换为字符串或两个不同的列

我之前遇到了一个障碍,试图在 Spark Dataframes 中进行一些转换. 假设我有一个架构数据框: root|-- 坐标:数组(可为空 = 真)||-- 元素:double (containsNull = true)|-- 用户 ID: 字符串 (nullable = true)|-- pubuid: string (nullable = true) 我想去掉坐标中的数组(双精度 ..
发布时间:2021-11-14 23:26:27 其他开发

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描 ..

转义 Spark SQL 的用户输入

到目前为止,我一直在使用 JDBC 连接到 Spark 的 Thrift Server,并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server),但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说,我很想发表这个声明 va ..
发布时间:2021-11-14 23:26:08 其他开发

Apache Spark SQL 问题:java.lang.RuntimeException:[1.517] 失败:需要标识符

根据我对spark sql的调查,发现不能直接连接2个以上的表,我们必须使用子查询才能使其工作.所以我使用子查询并能够加入 3 个表: 使用以下查询: "选择姓名、年龄、性别、dpi.msisdn、订阅类型、maritalStatus, isHighARPU, ipAddress, startTime, endTime, isRoaming,dpi.totalCount, dpi.we ..
发布时间:2021-11-14 23:26:05 其他开发

Spark SQL 作业的 Spark 修复任务编号

我一直看到 Apache Spark 安排了一系列阶段,其中涉及固定的 200 个任务.由于这种情况不断发生在许多不同的工作中,我猜这与 Spark 配置之一有关.有什么建议可能是这种配置吗? 解决方案 200 是 shuffle 期间使用的默认分区数,它由 spark.sql.shuffle.partitions 控制.它的值可以在运行时使用 SQLContext.setConf 设置: ..
发布时间:2021-11-14 23:25:59 其他开发

Apache Spark 的 Hive 部署问题(集群模式)

编辑: 我正在开发一个 Spark 应用程序,该应用程序从多个结构化架构中读取数据,并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时,我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子,但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手 ..
发布时间:2021-11-14 23:25:56 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:25:50 其他开发

Spark SQL:解析没有秒的时间戳

我不拥有的某些数据带有一个应该是 timestamp 的字段,但有时似乎不符合 ISO 8601 标准. 在我的代码中,我定义了一个架构,然后当 Spark SQL 解析我的 json 数据时,我收到以下错误: java.lang.IllegalArgumentException: 2016-10-07T11:15Z 源数据如下: "transaction_date_time": "2 ..
发布时间:2021-11-14 23:25:40 其他开发