spark-dataframe相关内容

将前导零添加到 Spark 数据帧中的列

简而言之,我正在利用 spark-xml 对 XML 文件进行一些解析.但是,使用它会删除我感兴趣的所有值中的前导零.但是,我需要最终输出,它是一个 DataFrame,以包含前导零.我不确定/无法想出一种方法来向我感兴趣的列添加前导零. val df = spark.read.format("com.databricks.spark.xml").option("rowTag", "输出").o ..
发布时间:2021-11-14 22:31:49 其他开发

为什么我的 Spark 应用程序只在 1 个执行程序中运行?

我对 Spark 还是比较陌生,但我已经能够创建 Spark 应用程序我需要能够使用 JDBC 驱动程序从我们的 SQL Server 重新处理数据(我们正在删除昂贵的 SP),该应用程序加载了几个表从 Sql Server 通过 JDBC 到数据帧,然后我做了一些连接、一个组和一个过滤器,最后通过 JDBC 将一些数据重新插入到不同的表中.所有这些在 Amazon Web Services 中的 ..
发布时间:2021-11-14 22:31:46 其他开发

Spark 2.3.0 读取带有标题选项的文本文件不起作用

下面的代码正在运行并从文本文件创建一个 Spark 数据帧.但是,我正在尝试使用 header 选项将第一列用作标题,但由于某种原因,它似乎没有发生.我不明白为什么!这一定是愚蠢的,但我无法解决这个问题. >>>from pyspark.sql import SparkSession>>>spark = SparkSession.builder.master("local").appName(" ..

如何确保我的 DataFrame 释放内存?

我有一份 Spark/Scala 工作,我在其中执行此操作: 1:计算一个大的DataFrame df1 + cache 到内存中 2:使用df1计算dfA 3:将原始数据读入df2(再次,它很大)+ cache it 在执行 (3) 时,我不再需要 df1.我想确保它的空间得到释放.我在 (1) 处缓存,因为这个 DataFrame 在 (2) 中被使用,这是确保我不会每次都重新 ..

Spark - 如何使用 - Thirft - Hive Interactor 获取逻辑/物理查询执行

Spark - 如何使用以下方法获取逻辑/物理查询执行 通过节俭 通过 SparkInteractor 解决方案 您可以通过 thrift 在直线中使用带有查询的解释语句,如下所示. EXPLAIN EXTENDED select * from sr23 join sr12 [] 火花拦截器是什么意思?它是spark-sql shell.?如果是,那么你可以使用上面的查询. ..
发布时间:2021-11-14 22:30:36 其他开发

通过 Spark SQL 进行批量数据迁移

我目前正在尝试通过 Spark SQL 将一个非常大的 MySQL 表的内容批量迁移到一个镶木地板文件中.但是这样做时,我很快就会耗尽内存,即使将驱动程序的内存限制设置得更高(我在本地模式下使用 spark).示例代码: 数据集ds = spark.read().format("jdbc").option("url", url).option("driver", "com.mysql.jdbc. ..
发布时间:2021-11-14 22:30:24 其他开发

如何在 spark SQL 中为表添加增量列 ID

我正在研究 spark mllib 算法.我拥有的数据集是这种形式 Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多类似的值) 我正在尝试将字符串值原始编码为数字值.因此,我尝试使用 zipwithuniqueID 作为每个字符串值的唯一值.出于某种原因,我无法将修改后的数据集保存到磁盘.我 ..