apache-spark-sql 第3页 - IT屋-程序员软件开发技术分享社区

基于spark数据帧scala中的列值过滤行

我有一个数据框(火花): id 值3 03 13 04 14 04 0 我想创建一个新的数据框: 3 03 14 1 需要为每个 id 删除 1(value) 之后的所有行.我尝试在 spark dateframe(Scala) 中使用窗口函数.但是找不到解决办法，看来是我走错方向了. 我正在 Scala 中寻找解决方案.谢谢使用 monotonically_increasi ..

发布时间：2021-12-31 08:43:15 scala apache-spark dataframe apache-spark-sql 其他开发

Spark 数据框:collect () vs select ()

在 RDD 上调用 collect() 会将整个数据集返回给驱动程序，这可能导致内存不足，我们应该避免这种情况. 如果在数据帧上调用 collect() 是否会以相同的方式运行? select() 方法怎么样? 如果在数据帧上调用它，它的工作方式是否也与 collect() 相同? 解决方案行动与转型 Collect (Action) - 在驱动程序中将数据集的所有元素作 ..

发布时间：2021-12-31 08:41:21 dataframe apache-spark apache-spark-sql 其他开发

什么是“相关标量子查询必须聚合"?意思是?

我使用 Spark 2.0. 我想执行以下 SQL 查询: val sqlText = """选择f.ID 作为 TID，f.BldgID 作为 TBldgID，f.LeaseID 作为 TLeaseID，f.Period 作为 TPeriod，合并((选择f 电荷量从Fact_CMCharges f在哪里f.BldgID = Fact_CMCharges.BldgID限制 1),0) 作 ..

发布时间：2021-12-31 08:40:26 apache-spark apache-spark-sql pyspark-sql 其他开发

Spark SQL 和 MySQL- SaveMode.Overwrite 不插入修改后的数据

我在 MySQL 中有一个 test 表，其 ID 和名称如下所示: +----+-------+|身份证 |姓名 |+----+-------+|1 |姓名1 |+----+-------+|2 |姓名2 |+----+-------+|3 |姓名3 |+----+-------+ 我正在使用 Spark DataFrame 读取此数据(使用 JDBC)并像这样修改数据 Datasetmo ..

发布时间：2021-12-31 08:39:23 mysql apache-spark dataframe apache-spark-sql 数据库

spark数据帧中过滤器的多种条件

我有一个包含四个字段的数据框.字段名称之一是状态，我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询，但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件 ..

发布时间：2021-12-31 08:36:06 apache-spark apache-spark-sql spark-dataframe 其他开发

为什么 Spark 应用程序会因“executor.CoarseGrainedExecutorBackend:Driver Dis associated"而失败?

当我通过 spark-submit 和 spark-sql 执行查询 sql 时，对应的 spark 应用程序总是失败，错误如下: 15/03/10 18:50:52 INFO util.AkkaUtils:连接到 HeartbeatReceiver:akka.tcp://sparkDriver@slave75:60697/user/HeartbeatReceiver15/03/10 18:52 ..

发布时间：2021-12-31 08:35:41 apache-spark apache-spark-sql 其他开发

Spark 为数据框连接指定多列条件

如何在连接两个数据框时给出更多的列条件.例如我想运行以下: val Lead_all = Leads.join(Utm_Master,Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==Utm_Master.columns("LeadSource","Utm_Source","Utm_Mediu ..

发布时间：2021-12-31 08:35:22 apache-spark apache-spark-sql rdd 其他开发

scala中两个数据帧的模式比较

我正在尝试编写一些测试用例来验证源 (.csv) 文件和目标(配置单元表)之间的数据.验证之一是表的结构验证. 我已将 .csv 数据(使用定义的架构)加载到一个数据框中，并将 hive 表数据提取到另一个数据框中. 当我现在尝试比较两个数据帧的架构时，它返回 false.不知道为什么.请问对此有什么想法吗? 源数据帧架构: scala>res39.printSchema根|-- ..

发布时间：2021-12-31 08:34:41 scala apache-spark-sql schema 其他开发

spark 将函数应用于并行列

Spark 将并行处理数据，但不会并行处理操作.在我的 DAG 中，我想为每列调用一个函数，例如Spark 并行处理列可以独立于其他列计算每列的值.有没有办法通过 spark-SQL API 实现这种并行性?利用窗口函数 Spark 动态 DAG比硬编码的 DAG 慢得多，而且与硬编码的 DAG 不同有助于优化 DAG，但只能以串行方式执行. 可以找到包含更多信息的示例https://g ..

发布时间：2021-12-30 21:39:46 scala apache-spark parallel-processing apache-spark-sql 其他开发

如何使用 ojdbc14.jar 在 spark-sql-2.4.1v 中将日期/时间戳作为lowerBound/upperBound 传递?

我使用 spark-sql-2.4.1v 和 ojdbc6.jar 从 oracle 读取数据. 有如下oracle表创建表 schema1.modal_vals(FAMILY_ID 非空 NUMBER，INSERTION_DATE 非空日期，ITEM_VALUE VARCHAR2(4000),年号，季度数字，LAST_UPDATE_DATE 日期) 加载样本数据: insert i ..

发布时间：2021-12-30 13:39:59 apache-spark oracle11g apache-spark-sql oracle10g oracle11gr2 其他开发

如何在spark SQL(PySpark)中实现自增

我需要在我的 spark sql 表中实现一个自动递增列，我该怎么做.请指导我.我正在使用 pyspark 2.0 谢谢卡利安解决方案我会编写/重用 stateful Hive udf 并注册到 pySpark，因为 Spark SQL 确实对 Hive 有很好的支持. 在下面的代码中检查这一行 @UDFType(deterministic = false, statefu ..

发布时间：2021-12-28 23:50:44 apache-spark hive apache-spark-sql pyspark-sql 其他开发

Spark 2:当 SparkSession enableHiveSupport() 被调用时它是如何工作的

我的问题很简单，但不知何故，我无法通过阅读文档找到明确的答案. 我在 CDH 5.10 集群上运行 Spark2.还有 Hive 和 Metastore. 我在我的 Spark 程序中创建了一个会话，如下所示: SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrC ..

发布时间：2021-12-28 23:40:42 apache-spark hive apache-spark-sql hiveql 其他开发

在 hive 或 impala 中计算表统计数据如何加快 Spark SQL 中的查询速度?

为了提高性能(例如连接)，建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据；在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是，我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..

发布时间：2021-12-28 23:36:35 apache-spark hive apache-spark-sql impala 其他开发

Spark SQL 是否使用 Hive Metastore?

我正在开发一个 Spark SQL 应用程序，但我有几个问题: 我读到 Spark-SQL 在幕后使用 Hive Metastore?这是真的?我说的是一个纯 Spark-SQL 应用程序，它没有显式连接到任何 Hive 安装. 我正在启动一个 Spark-SQL 应用程序，不需要使用 Hive.有什么理由使用 Hive 吗?据我了解，Spark-SQL 比 Hive 快得多；所以，我看不 ..

发布时间：2021-12-28 23:34:08 apache-spark hive apache-spark-sql 其他开发

ORC 文件上的 Spark SQL 不返回正确的架构(列名)

我有一个包含 ORC 文件的目录.我正在使用下面的代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr ..

发布时间：2021-12-28 23:31:16 apache-spark apache-spark-sql apache-hive 其他开发

如何对pyspark中的spark数据帧中的多列求和?

我有一个要汇总的列名列表 columns = ['col1','col2','col3'] 如何添加这三个并将其放入新列中?(以自动方式，以便我可以更改列列表并获得新结果) 带有我想要的结果的数据框: col1 col2 col3 结果1 2 3 6 解决方案试试这个: df = df.withColumn('result', sum(df[col] for col in df ..

发布时间：2021-12-22 21:39:02 python apache-spark pyspark apache-spark-sql Python

如何在 Spark SQL 中访问 python 变量?

我在 Azure Databricks 的 jupyter notebook 文件中的 %python 下创建了 python 变量.如何访问相同的变量以在 %sql 下进行比较.示例如下: %pythonRunID_Goal = sqlContext.sql("SELECT CONCAT(SUBSTRING(RunID,1,6),SUBSTRING(RunID,1,6),'01_')FROM ..

发布时间：2021-12-22 21:31:59 pyspark apache-spark-sql databricks azure-databricks 其他开发

如何选择最后一行以及如何通过索引访问 PySpark 数据框?

来自像这样的 PySpark SQL 数据帧 name 年龄城市abc 20定义 30 B 如何获取最后一行.(就像通过 df.limit(1) 我可以将数据帧的第一行放入新的数据帧中). 以及如何通过 index.like 行号访问数据帧行.12 或 200 . 在熊猫中我可以做到 df.tail(1) # 最后一行df.ix[rowno or index] # 按索引df ..

发布时间：2021-12-22 21:29:32 python apache-spark pyspark apache-spark-sql pyspark-sql Python

当值与 pyspark 中的字符串的一部分匹配时过滤 df

我有一个很大的 pyspark.sql.dataframe.DataFrame，我想保留(所以 filter)URL 保存在 location 列包含一个预先确定的字符串，例如'google.com'. 我试过了: import pyspark.sql.functions as sfdf.filter(sf.col('location').contains('google.com')).s ..

发布时间：2021-12-22 21:25:19 python apache-spark pyspark apache-spark-sql Python

通过减去字符串格式的两个日期时间列来计算持续时间

我有一个包含一系列日期的 Spark 数据框: from pyspark.sql import SQLContext从 pyspark.sql 导入行从 pyspark.sql.types 导入 *sqlContext = SQLContext(sc)将熊猫导入为 pdrdd = sc.parallelizesc.parallelize([('X01','2014-02-13T12:36:14. ..

发布时间：2021-12-22 21:21:48 apache-spark apache-spark-sql pyspark 其他开发

apache-spark-sql相关内容