apache-spark-sql相关内容

Spark 数据框:collect () vs select ()

在 RDD 上调用 collect() 会将整个数据集返回给驱动程序,这可能导致内存不足,我们应该避免这种情况. 如果在数据帧上调用 collect() 是否会以相同的方式运行? select() 方法怎么样? 如果在数据帧上调用它,它的工作方式是否也与 collect() 相同? 解决方案 行动与转型 Collect (Action) - 在驱动程序中将数据集的所有元素作 ..
发布时间:2021-12-31 08:41:21 其他开发

spark数据帧中过滤器的多种条件

我有一个包含四个字段的数据框.字段名称之一是状态,我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询,但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件 ..
发布时间:2021-12-31 08:36:06 其他开发

scala中两个数据帧的模式比较

我正在尝试编写一些测试用例来验证源 (.csv) 文件和目标(配置单元表)之间的数据.验证之一是表的结构验证. 我已将 .csv 数据(使用定义的架构)加载到一个数据框中,并将 hive 表数据提取到另一个数据框中. 当我现在尝试比较两个数据帧的架构时,它返回 false.不知道为什么.请问对此有什么想法吗? 源数据帧架构: scala>res39.printSchema根|-- ..
发布时间:2021-12-31 08:34:41 其他开发

spark 将函数应用于并行列

Spark 将并行处理数据,但不会并行处理操作.在我的 DAG 中,我想为每列调用一个函数,例如Spark 并行处理列 可以独立于其他列计算每列的值.有没有办法通过 spark-SQL API 实现这种并行性?利用窗口函数 Spark 动态 DAG比硬编码的 DAG 慢得多,而且与硬编码的 DAG 不同 有助于优化 DAG,但只能以串行方式执行. 可以找到包含更多信息的示例https://g ..

在 hive 或 impala 中计算表统计数据如何加快 Spark SQL 中的查询速度?

为了提高性能(例如连接),建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据; 在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是,我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..
发布时间:2021-12-28 23:36:35 其他开发

Spark SQL 是否使用 Hive Metastore?

我正在开发一个 Spark SQL 应用程序,但我有几个问题: 我读到 Spark-SQL 在幕后使用 Hive Metastore?这是真的?我说的是一个纯 Spark-SQL 应用程序,它没有显式连接到任何 Hive 安装. 我正在启动一个 Spark-SQL 应用程序,不需要使用 Hive.有什么理由使用 Hive 吗?据我了解,Spark-SQL 比 Hive 快得多;所以,我看不 ..
发布时间:2021-12-28 23:34:08 其他开发

如何选择最后一行以及如何通过索引访问 PySpark 数据框?

来自像 这样的 PySpark SQL 数据帧 name 年龄城市abc 20定义 30 B 如何获取最后一行.(就像通过 df.limit(1) 我可以将数据帧的第一行放入新的数据帧中). 以及如何通过 index.like 行号访问数据帧行.12 或 200 . 在熊猫中我可以做到 df.tail(1) # 最后一行df.ix[rowno or index] # 按索引df ..
发布时间:2021-12-22 21:29:32 Python