apache-spark-2.0 - IT屋-程序员软件开发技术分享社区

查询 Hive 表时，数据帧 NumberFormatException 上的 Spark 2.2 Thrift 服务器错误

我有运行 Spark2 (v2.2) 的 Hortonworks HDP 2.6.3.我的测试用例很简单: 用一些随机值创建一个 Hive 表.Hive 在 10000 端口在 10016 开启 Spark Thrift 服务器运行pyspark并通过10016查询Hive表但是，由于 NumberFormatException，我无法从 Spark 获取数据. ..

发布时间：2021-12-28 23:53:19 python hadoop hive pyspark apache-spark-2.0 Python

Spark 不读取第一行中具有空值的列

以下是我的 csv 文件中的内容: A1,B1,C1A2,B2,C2,D1A3,B3,C3,D2,E1A4,B4,C4,D3A5,B5,C5,,E2 所以，有 5 列，但第一行只有 3 个值. 我使用以下命令阅读它: val csvDF : DataFrame = spark.read.option("header", "false").option("分隔符", ",").optio ..

发布时间：2021-11-14 23:27:19 apache-spark apache-spark-sql apache-spark-2.0 spark-csv 其他开发

我有两个从两个 csv 文件中读取的数据框. +---+----------+----+|身份证|数量 |RECHARGE_AMOUNT|+---+-----------+-----------------+|1|9090909092|30||2|9090909093|30||3|9090909090|30||4|9090909094|30|+---+-----------+---------- ..

发布时间：2021-11-14 23:12:53 python apache-spark pyspark apache-spark-sql apache-spark-2.0 Python

从 Spark DataFrame 中的逐列运行创建唯一的分组键

我有类似的东西，其中 spark 是我的 sparkContext.我在我的 sparkContext 中导入了 implicits._ 所以我可以使用 $ 语法: val df = spark.createDataFrame(Seq(("a", 0L), ("b", 1L), ("c", 1L), ("d", 1L), ("e", 0L), ("f", 1L))).toDF("id", "fl ..

发布时间：2021-11-14 23:11:45 scala apache-spark apache-spark-sql apache-spark-2.0 其他开发

基于spark中的列值拆分数据集

我正在尝试根据制造商列的内容将数据集拆分为不同的数据集.很慢请提出改进代码的方法，使其执行得更快并减少Java代码的使用. Listlsts= countsByAge.collectAsList();for(Row lst:lsts){String man=lst.toString();man = man.replaceAll("[\\p{Ps}\\p{Pe}]", "");数据集 ..

发布时间：2021-11-14 22:56:04 apache-spark apache-spark-sql apache-spark-2.0 apache-spark-dataset 其他开发

避免以编程方式使用创建的上下文启动 HiveThriftServer2

我们正在尝试使用 ThriftServer 从 spark 临时表中查询数据，在 spark 2.0.0 中. 首先，我们创建了启用 Hive 支持的 sparkSession.目前，我们使用 sqlContext 启动 ThriftServer，如下所示: HiveThriftServer2.startWithContext(spark.sqlContext()); 我们有带有注册临时 ..

发布时间：2021-11-14 22:55:49 hadoop apache-spark hive apache-spark-sql apache-spark-2.0 其他开发

如何从单个目录仅加载 pyspark spark.read.csv 中的前 n 个文件

我有一个场景，我正在加载和处理 4TB 的数据，一个文件夹中大约有 15000 个 .csv 文件. 由于资源有限，我打算分两次处理批次，然后将它们联合起来. 我想知道我是否只能加载 50%(或第一个批处理 1 中的文件数和批处理 2 中的其余文件数)使用 spark.read.csv. 我不能使用正则表达式，因为这些文件是生成的来自多个来源并且它们的数量是奇数(来自某些来源很少， ..

发布时间：2021-11-14 22:52:45 csv pyspark pyspark-sql apache-spark-2.0 其他开发

指定列的 Spark sql 问题

我们正在尝试将一个 oracle 数据库复制到 hive 中.我们从 oracle 获取查询并在 hive 中运行它们.因此，我们以这种格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 虽然此查询直接在 Hive 中工作，但当我使用 spark.sql 时，出现以下错误: org.apache.spark.sq ..

发布时间：2021-11-14 22:52:42 sql apache-spark apache-spark-sql apache-spark-2.0 其他开发

使用 extraOptimizations 转换 Spark SQL AST

我想将 SQL 字符串作为用户输入，然后在执行前对其进行转换.特别是，我想修改顶级投影(select 子句)，注入要由查询检索的额外列. 我希望通过使用 sparkSession.experimental.extraOptimizations 连接到 Catalyst 来实现这一目标.我知道我正在尝试的不是严格意义上的优化(转换改变了 SQL 语句的语义)，但 API 似乎仍然合适.但是，查 ..

发布时间：2021-11-14 22:51:56 apache-spark apache-spark-sql apache-spark-2.0 其他开发

用于 Cassandra 的 Spark2 会话，sql 查询

在 Spark-2.0 中，创建 Spark 会话的最佳方式是什么.因为在 Spark-2.0 和 Cassandra 中，API 都经过了重新设计，基本上弃用了 SqlContext(以及 CassandraSqlContext).因此，为了执行 SQL - 我要么创建一个 Cassandra 会话 (com.datastax.driver.core.Session) 并使用 execute(" ..

发布时间：2021-11-14 22:47:44 java apache-spark apache-spark-sql spark-cassandra-connector apache-spark-2.0 Java开发

Spark 中 UDAF 与聚合器的性能对比

我正在尝试在 Spark 中编写一些注重性能的代码，并想知道我是否应该编写一个 Aggregator 或用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use ..

发布时间：2021-11-14 22:44:01 performance apache-spark spark-dataframe aggregate-functions apache-spark-2.0 其他开发

如何在 Spark 2 中启用 Tungsten 优化?

我刚刚构建了带有 hive 支持的 Spark 2，并将其部署到带有 Hortonworks 2.3.4 的集群.但是我发现这个 Spark 2.0.3 比 HDP 2.3 附带的标准 spark 1.5.3 慢当我检查 explain 时，似乎我的 Spark 2.0.3 没有使用钨.我是否需要创建特殊版本才能启用 Tungsten? Spark 1.5.3 解释 == 物理计划 ..

发布时间：2021-11-14 22:41:02 apache-spark pyspark apache-spark-sql apache-spark-2.0 其他开发

在任何地方导入 spark 隐式的解决方法

我是 Spark 2.0 的新手，我在我们的代码库中使用了数据集.我有点注意到我需要在我们的代码中到处import spark.implicits._.例如: 文件AA类{定义作业(火花:SparkSession)= {导入 spark.implcits._//创建数据集dsval b = 新 B(火花)b.doSomething(ds)做某事(ds)}private def doSomethi ..

发布时间：2021-11-14 22:30:46 scala apache-spark spark-dataframe apache-spark-2.0 implicits 其他开发

Spark DataFrame:查找并设置子项的主根

我有以下 Apache Spark 数据框: 父 - 子 A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 此 DataFrame 显示父子之间的连接.从逻辑上看，它看起来像这样: 主要目标是为每个孩子设置主根.这意味着我们应该有以下数据框: 父 - 子 A1 - A10 A1 - A2 A ..

发布时间：2021-11-14 22:27:39 apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Apache spark加入动态重新分区

我正在尝试对两个表进行相当简单的连接，并不复杂.加载两个表，进行连接并更新列，但它不断抛出异常. 我注意到任务卡在最后一个分区 199/200 并最终崩溃.我怀疑是数据倾斜导致所有数据都加载到最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 150 万. 虽然 SELECT COUNT(*) FRO ..

发布时间：2021-11-14 22:13:27 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

我想处理一个巨大的订单 CSV 文件 (5GB)，文件开头有一些元数据行.标题列在第 4 行(以“h,"开头)表示，后跟另一个元数据行，描述可选性.数据行以“d"开头， m,Version,v1.0米，类型，xxm,,h,Col1,Col2,Col3,Col4,Col5,........,Col100m,Mandatory,Optional,Optiona ..

发布时间：2021-11-14 22:11:05 apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 其他开发

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

我想处理一个巨大的订单 CSV 文件 (5GB)，文件开头有一些元数据行.标题列在第 4 行(以“h,"开头)表示，后跟另一个元数据行，描述可选性.数据行以“d"开头， m,Version,v1.0米，类型，xxm,,h,Col1,Col2,Col3,Col4,Col5,........,Col100m,Mandatory,Optional,Optiona ..

发布时间：2021-11-14 22:10:33 apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 其他开发

使用 Scala 以毫秒为单位的 Spark 2.0 时间戳差异

我正在使用 Spark 2.0，并正在寻找一种在 Scala 中实现以下目标的方法: 需要两个 Data-frame 列值之间的时间戳差异(以毫秒为单位). Value_1 = 06/13/2017 16:44:20.044Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳. 注意:将函数 unix_timestamp(Column s) ..

发布时间：2021-11-14 22:07:56 scala timestamp apache-spark-sql user-defined-functions apache-spark-2.0 其他开发

从JDBC创建spark数据帧时如何指定sql方言?

我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题.我将如何覆盖通过 jdbc url 推断的 sql 方言? 有问题的数据库是 vitess (https://github.com/youtube/vitess)它运行一个 mysql 变体，所以我想指定一个 mysql 方言.jdbc url 以 jdbc:vitess/ 开头否则 DataFrameReader 会推断 ..

发布时间：2021-11-14 22:04:15 apache-spark jdbc apache-spark-sql apache-spark-2.0 vitess 其他开发

不支持 Any 类型的架构

我正在尝试创建一个 spark UDF，以从用户定义的案例类中提取(键、值)对的映射. scala 函数似乎工作正常，但是当我尝试在 spark2.0 中将其转换为 UDF 时，我遇到了“不支持任何类型的架构"错误. case class myType(c1: String, c2: Int)def getCaseClassParams(cc: Product): Map[String, ..

发布时间：2021-11-14 22:03:53 scala apache-spark apache-spark-sql udf apache-spark-2.0 其他开发

apache-spark-2.0相关内容

查询 Hive 表时，数据帧 NumberFormatException 上的 Spark 2.2 Thrift 服务器错误

Spark 不读取第一行中具有空值的列

在pyspark中加入具有相同名称的数据帧

从 Spark DataFrame 中的逐列运行创建唯一的分组键

基于spark中的列值拆分数据集

避免以编程方式使用创建的上下文启动 HiveThriftServer2

如何从单个目录仅加载 pyspark spark.read.csv 中的前 n 个文件

指定列的 Spark sql 问题

使用 extraOptimizations 转换 Spark SQL AST

用于 Cassandra 的 Spark2 会话，sql 查询

Spark 中 UDAF 与聚合器的性能对比

如何在 Spark 2 中启用 Tungsten 优化?

在任何地方导入 spark 隐式的解决方法

Spark DataFrame:查找并设置子项的主根

Apache spark加入动态重新分区

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

使用 Scala 以毫秒为单位的 Spark 2.0 时间戳差异

从JDBC创建spark数据帧时如何指定sql方言?

不支持 Any 类型的架构