apache-spark-sql相关内容
我有一个数据框(火花): id 值3 03 13 04 14 04 0 我想创建一个新的数据框: 3 03 14 1 需要为每个 id 删除 1(value) 之后的所有行.我尝试在 spark dateframe(Scala) 中使用窗口函数.但是找不到解决办法,看来是我走错方向了. 我正在 Scala 中寻找解决方案.谢谢 使用 monotonically_increasi
..
在 RDD 上调用 collect() 会将整个数据集返回给驱动程序,这可能导致内存不足,我们应该避免这种情况. 如果在数据帧上调用 collect() 是否会以相同的方式运行? select() 方法怎么样? 如果在数据帧上调用它,它的工作方式是否也与 collect() 相同? 解决方案 行动与转型 Collect (Action) - 在驱动程序中将数据集的所有元素作
..
我使用 Spark 2.0. 我想执行以下 SQL 查询: val sqlText = """选择f.ID 作为 TID,f.BldgID 作为 TBldgID,f.LeaseID 作为 TLeaseID,f.Period 作为 TPeriod,合并((选择f 电荷量从Fact_CMCharges f在哪里f.BldgID = Fact_CMCharges.BldgID限制 1),0) 作
..
我在 MySQL 中有一个 test 表,其 ID 和名称如下所示: +----+-------+|身份证 |姓名 |+----+-------+|1 |姓名1 |+----+-------+|2 |姓名2 |+----+-------+|3 |姓名3 |+----+-------+ 我正在使用 Spark DataFrame 读取此数据(使用 JDBC)并像这样修改数据 Datasetmo
..
我有一个包含四个字段的数据框.字段名称之一是状态,我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询,但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件
..
当我通过 spark-submit 和 spark-sql 执行查询 sql 时,对应的 spark 应用程序总是失败,错误如下: 15/03/10 18:50:52 INFO util.AkkaUtils:连接到 HeartbeatReceiver:akka.tcp://sparkDriver@slave75:60697/user/HeartbeatReceiver15/03/10 18:52
..
如何在连接两个数据框时给出更多的列条件.例如我想运行以下: val Lead_all = Leads.join(Utm_Master,Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==Utm_Master.columns("LeadSource","Utm_Source","Utm_Mediu
..
我正在尝试编写一些测试用例来验证源 (.csv) 文件和目标(配置单元表)之间的数据.验证之一是表的结构验证. 我已将 .csv 数据(使用定义的架构)加载到一个数据框中,并将 hive 表数据提取到另一个数据框中. 当我现在尝试比较两个数据帧的架构时,它返回 false.不知道为什么.请问对此有什么想法吗? 源数据帧架构: scala>res39.printSchema根|--
..
Spark 将并行处理数据,但不会并行处理操作.在我的 DAG 中,我想为每列调用一个函数,例如Spark 并行处理列 可以独立于其他列计算每列的值.有没有办法通过 spark-SQL API 实现这种并行性?利用窗口函数 Spark 动态 DAG比硬编码的 DAG 慢得多,而且与硬编码的 DAG 不同 有助于优化 DAG,但只能以串行方式执行. 可以找到包含更多信息的示例https://g
..
我使用 spark-sql-2.4.1v 和 ojdbc6.jar 从 oracle 读取数据. 有如下oracle表 创建表 schema1.modal_vals(FAMILY_ID 非空 NUMBER,INSERTION_DATE 非空日期,ITEM_VALUE VARCHAR2(4000),年号,季度数字,LAST_UPDATE_DATE 日期) 加载样本数据: insert i
..
我需要在我的 spark sql 表中实现一个自动递增列,我该怎么做.请指导我.我正在使用 pyspark 2.0 谢谢卡利安 解决方案 我会编写/重用 stateful Hive udf 并注册到 pySpark,因为 Spark SQL 确实对 Hive 有很好的支持. 在下面的代码中检查这一行 @UDFType(deterministic = false, statefu
..
我的问题很简单,但不知何故,我无法通过阅读文档找到明确的答案. 我在 CDH 5.10 集群上运行 Spark2.还有 Hive 和 Metastore. 我在我的 Spark 程序中创建了一个会话,如下所示: SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrC
..
为了提高性能(例如连接),建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据; 在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是,我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark
..
我正在开发一个 Spark SQL 应用程序,但我有几个问题: 我读到 Spark-SQL 在幕后使用 Hive Metastore?这是真的?我说的是一个纯 Spark-SQL 应用程序,它没有显式连接到任何 Hive 安装. 我正在启动一个 Spark-SQL 应用程序,不需要使用 Hive.有什么理由使用 Hive 吗?据我了解,Spark-SQL 比 Hive 快得多;所以,我看不
..
我有一个包含 ORC 文件的目录.我正在使用下面的代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr
..
我有一个要汇总的列名列表 columns = ['col1','col2','col3'] 如何添加这三个并将其放入新列中?(以自动方式,以便我可以更改列列表并获得新结果) 带有我想要的结果的数据框: col1 col2 col3 结果1 2 3 6 解决方案 试试这个: df = df.withColumn('result', sum(df[col] for col in df
..
我在 Azure Databricks 的 jupyter notebook 文件中的 %python 下创建了 python 变量.如何访问相同的变量以在 %sql 下进行比较.示例如下: %pythonRunID_Goal = sqlContext.sql("SELECT CONCAT(SUBSTRING(RunID,1,6),SUBSTRING(RunID,1,6),'01_')FROM
..
来自像 这样的 PySpark SQL 数据帧 name 年龄城市abc 20定义 30 B 如何获取最后一行.(就像通过 df.limit(1) 我可以将数据帧的第一行放入新的数据帧中). 以及如何通过 index.like 行号访问数据帧行.12 或 200 . 在熊猫中我可以做到 df.tail(1) # 最后一行df.ix[rowno or index] # 按索引df
..
我有一个很大的 pyspark.sql.dataframe.DataFrame,我想保留(所以 filter)URL 保存在 location 列包含一个预先确定的字符串,例如'google.com'. 我试过了: import pyspark.sql.functions as sfdf.filter(sf.col('location').contains('google.com')).s
..
我有一个包含一系列日期的 Spark 数据框: from pyspark.sql import SQLContext从 pyspark.sql 导入行从 pyspark.sql.types 导入 *sqlContext = SQLContext(sc)将熊猫导入为 pdrdd = sc.parallelizesc.parallelize([('X01','2014-02-13T12:36:14.
..