apache-spark-sql 第10页 - IT屋-程序员软件开发技术分享社区

将 StructType 分解为 MapType Spark

在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{ ..

发布时间：2021-11-14 23:27:01 apache-spark apache-spark-sql 其他开发

Spark SQL 列操作

我有一个低于 Cols 的数据集. df.show();+--------+---------+---------+---------+---------+|列 1 |Col2 |花费1 |支出2 |花费3 |+--------+---------+---------+---------+---------+|值 1 |Cvalue1 |123 |2254 |22 ||值1 |Cvalue2 | ..

发布时间：2021-11-14 23:26:54 apache-spark dataframe apache-spark-sql apache-spark-dataset 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常，线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..

发布时间：2021-11-14 23:26:51 json apache-spark apache-spark-sql parquet 其他开发

错误:对象 xml 不是包 com.databricks.spark 的成员

我正在尝试使用 SBT 读取 XML 文件，但在编译时遇到问题. build.sbt name:= "First Spark"版本:=“1.0"组织:=“in.goai"斯卡拉版本:=“2.11.8"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"libraryDependencies += "org.a ..

发布时间：2021-11-14 23:26:48 scala apache-spark sbt apache-spark-sql scala-xml 其他开发

如何重命名现有的 Spark SQL 函数

我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称，例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register(" ..

发布时间：2021-11-14 23:26:45 apache-spark apache-spark-sql user-defined-functions 其他开发

突然抛出这个 RDD 缺少一个 SparkContext 它在每个代码都在 main 方法之前工作

这是一段有效的代码，但在我尝试从不同的 scala 对象创建 Sparksession 后突然无法工作 val b = a.filter { x =>(!x._2._1.isEmpty) &&(!x._2._2.isEmpty) }val primary_ke = b.map(rec => (rec._1.split(",")(0))).distinctfor (i ..

发布时间：2021-11-14 23:26:36 scala apache-spark apache-spark-sql 其他开发

Spark 找不到窗口函数

使用https://stackoverflow.com/a/32407543/5379015中提供的解决方案我尝试重新创建相同的查询，但使用编程语法而不是 Dataframe API，如下所示: import org.apache.spark.{SparkContext, SparkConf}导入 org.apache.spark.sql.hive.HiveContext导入 org.apach ..

发布时间：2021-11-14 23:26:33 sql scala apache-spark apache-spark-sql window-functions 其他开发

SQLITE_ERROR:通过 JDBC 从 Spark 连接到 SQLite 数据库时，连接已关闭

我正在使用 Apache Spark 1.5.1 并尝试连接到名为 clinton.db 的本地 SQLite 数据库.从数据库表创建数据框工作正常，但是当我对创建的对象执行某些操作时，我收到以下错误消息，其中显示“SQL 错误或丢失的数据库(连接已关闭)".有趣的是，我还是得到了手术的结果.知道我可以做些什么来解决问题，即避免错误吗? spark-shell 的启动命令: ../spar ..

发布时间：2021-11-14 23:26:30 sqlite jdbc apache-spark apache-spark-sql 数据库

使用 Spark Dataframe Scala 将 Array[Double] 列转换为字符串或两个不同的列

我之前遇到了一个障碍，试图在 Spark Dataframes 中进行一些转换. 假设我有一个架构数据框: root|-- 坐标:数组(可为空 = 真)||-- 元素:double (containsNull = true)|-- 用户 ID: 字符串 (nullable = true)|-- pubuid: string (nullable = true) 我想去掉坐标中的数组(双精度 ..

发布时间：2021-11-14 23:26:27 arrays scala apache-spark dataframe apache-spark-sql 其他开发

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么，我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中，我们最初选择一个中心，然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中，initializationSteps 参数是什么? 解决方案准确地说，k-means++ 是一种选择初始中心的算法，它并没有描 ..

发布时间：2021-11-14 23:26:24 apache-spark pyspark apache-spark-sql apache-spark-mllib 其他开发

Spark Sampling - 比使用完整的 RDD/DataFrame 快多少

我想知道与完整 RDD/DF 的运行时间相比，在对 RDD/DF 进行采样时 Spark 的运行时间是多少.我不知道这是否有所不同，但我目前使用的是 Java + Spark 1.5.1 + Hadoop 2.6. JavaRDDrdd = sc.textFile(HdfsDirectoryPath()).map(new Function() {@覆盖公共行调用(字符串行)抛出异常{String ..

发布时间：2021-11-14 23:26:11 java apache-spark apache-spark-sql Java开发

转义 Spark SQL 的用户输入

到目前为止，我一直在使用 JDBC 连接到 Spark 的 Thrift Server，并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server)，但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说，我很想发表这个声明 va ..

发布时间：2021-11-14 23:26:08 apache-spark hiveql apache-spark-sql 其他开发

Apache Spark SQL 问题:java.lang.RuntimeException:[1.517] 失败:需要标识符

根据我对spark sql的调查，发现不能直接连接2个以上的表，我们必须使用子查询才能使其工作.所以我使用子查询并能够加入 3 个表: 使用以下查询: "选择姓名、年龄、性别、dpi.msisdn、订阅类型、maritalStatus, isHighARPU, ipAddress, startTime, endTime, isRoaming,dpi.totalCount, dpi.we ..

发布时间：2021-11-14 23:26:05 join apache-spark apache-spark-sql 其他开发

Scala Apache Spark:列名中的非标准字符

我正在调用以下内容: propertiesDF.select(col("timestamp"), col("coordinates")(0) as "lon",col("坐标")(1) 为"纬度"，col("properties.tide (above mllw)") as "tideAboveMllw",col("properties.wind speed") 作为 "windSpeed") ..

发布时间：2021-11-14 23:26:02 scala apache-spark apache-spark-sql 其他开发

Spark SQL 作业的 Spark 修复任务编号

我一直看到 Apache Spark 安排了一系列阶段，其中涉及固定的 200 个任务.由于这种情况不断发生在许多不同的工作中，我猜这与 Spark 配置之一有关.有什么建议可能是这种配置吗? 解决方案 200 是 shuffle 期间使用的默认分区数，它由 spark.sql.shuffle.partitions 控制.它的值可以在运行时使用 SQLContext.setConf 设置: ..

发布时间：2021-11-14 23:25:59 apache-spark apache-spark-sql 其他开发

Apache Spark 的 Hive 部署问题(集群模式)

编辑: 我正在开发一个 Spark 应用程序，该应用程序从多个结构化架构中读取数据，并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时，我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子，但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手 ..

发布时间：2021-11-14 23:25:56 hadoop apache-spark apache-spark-sql apache-hive 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:25:50 apache-spark hdfs apache-spark-sql avro parquet 其他开发

Spark SQL:解析没有秒的时间戳

我不拥有的某些数据带有一个应该是 timestamp 的字段，但有时似乎不符合 ISO 8601 标准. 在我的代码中，我定义了一个架构，然后当 Spark SQL 解析我的 json 数据时，我收到以下错误: java.lang.IllegalArgumentException: 2016-10-07T11:15Z 源数据如下: "transaction_date_time": "2 ..

发布时间：2021-11-14 23:25:40 json apache-spark timestamp apache-spark-sql 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象，如图在本教程中. 但是当我尝试获取 DataFrame 对象的计数时，它显示为 0 这是我的文件， employee.csv: empid,empname1000,汤姆2000，杰瑞我加载了上面的文件， val empDf = sqlContext.read.format("com.databr ..

发布时间：2021-11-14 23:25:37 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

似乎无法为火花构建蜂巢

我一直在尝试在 pyspark 中运行此代码. sqlContext = HiveContext(sc)datumDF = sqlContext.createDataFrame(datumX, schema) 但是一直收到这个警告: Exception: ("You must build Spark with Hive.Export 'SPARK_HIVE=true' and run bui ..

发布时间：2021-11-14 23:25:28 amazon-ec2 apache-spark apache-spark-sql 其他开发

apache-spark-sql相关内容