spark-dataframe相关内容

Spark UDF 如何将 Map 转换为列

我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量,因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法,我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par ..
发布时间:2021-11-14 23:54:24 其他开发

Apache Spark:如何使用Java在dataFrame中的空值列中插入数据

我必须使用 DataFrame2 将 DataFrame1 中可用的值插入到具有空值的列之一中.基本上更新 DataFrame2 中的列. 两个 DataFrame 都有 2 个公共列. 有没有办法使用 Java 做同样的事情?或者可以有不同的方法? 样本输入: 1) 文件 1.csv BILL_ID,BILL_NBR_TYPE_CD,BILL_NBR,VERSION,P ..
发布时间:2021-11-14 23:33:08 其他开发

更改数据帧中的列值 spark scala

这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点? ..
发布时间:2021-11-14 23:32:31 其他开发

基于公共值的 Spark 过滤器 DataFrames

我有 DF1 和 DF2.第一个有一列“new_id",第二个有一列“db_id" 我需要过滤掉第一个 DataFrame 中的所有行,其中 new_id 的值不在 db_id 中. val new_id = Seq(1, 2, 3, 4)val db_id = Seq(1, 4, 5, 6, 10) 然后我需要 new_id == 1 和 4 的行留在 df1 中并删除 news_id ..
发布时间:2021-11-14 23:32:13 其他开发

无法读取,稍后在 Apache Spark 中查询文本文件

所以我正在尝试实现示例 Spark 编程示例 使用我们提供的数据集.它是一个由 | 分隔的文件.但是,即使按照给定的说明进行操作,它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中,关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis ..
发布时间:2021-11-14 23:32:10 其他开发

如何在火花图函数中输出多个(键,值)

输入数据格式如下: +------------+------------+---------------------+|学生证|对 |错误 |+--------------------+----------------+--------------------+|studentNo01 |a,b,c |x,y,z |+--------------------+----------------+- ..
发布时间:2021-11-14 23:31:52 其他开发

Json 字段在转换为 spark DataFrame 时默认排序

当我从 json 文件创建数据帧时,json 文件中的字段默认在数据帧中排序.如何避免这种排序? Jsonfile 每行有一个 json 消息: {"name":"john","age":10,"class":2}{"name":"rambo","age":11,"class":3} 当我从这个文件创建数据框时: val jDF = sqlContext.read.json("/u ..
发布时间:2021-11-14 23:31:25 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象,如图 在本教程中. 但是当我尝试获取 DataFrame 对象的计数时,它显示为 0 这是我的文件, employee.csv: empid,empname1000,汤姆2000,杰瑞 我加载了上面的文件, val empDf = sqlContext.read.format("com.databr ..
发布时间:2021-11-14 23:31:22 其他开发

Spark Dataframe 以错误的格式保存到 MongoDB

我正在使用 Spark-MongoDB我正在尝试将 DataFrame 保存到 MongoDB 中: val event = """{"Dev":[{"a":3},{"b":3}],"hr":[{"a":6}]}"“"val events = sc.parallelize(event :: Nil)val df = sqlc.read.json(事件)val saveConfig = Mongo ..
发布时间:2021-11-14 23:31:19 其他开发

Spark - 范围、数据帧和内存管理

我很好奇 scope 如何与 Data Frame 和 Spark 配合使用.在下面的例子中,我有一个文件列表,每个文件独立加载到一个数据帧中,执行一些操作,然后,我们将 dfOutput 写入磁盘. val files = getListOfFiles("outputs/emailsS​​plit")对于(文件 循环完成后,for 循环 中的每个数据帧是被丢弃,还是留在内存中? 如果它们 ..
发布时间:2021-11-14 23:31:11 其他开发

为什么 pyspark 选择未广播的变量?

我正在使用 pyspark 来分析数据集,我有点惊讶为什么即使我使用的是未广播的变量,以下代码仍能正常工作.> 有问题的变量是 video,它在函数 filter 中使用,在 join 之后. seed = random.randint(0,999)# df 是一个数据框# 视频只是一个随机采样的元素视频 = df.sample(False,0.001,seed).head()# 只是一个py ..
发布时间:2021-11-14 23:31:05 其他开发

如何从 Spark 中的数据帧创建 EdgeRDD

我在 spark 中有一个数据框.每行代表一个人,我想检索他们之间可能的联系.拥有链接的规则是,对于每个可能的对,如果它们具有相同的 prop1:String 并且 prop2:Int 的绝对差小于5 则链接存在.我试图了解使用数据框完成此任务的最佳方法. 我正在尝试检索索引的 RDD: val idusers = people.select("ID").rdd.map(r => r(0) ..
发布时间:2021-11-14 23:31:02 其他开发

如何计算火花数据帧中一个列的差异?

+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201 ..
发布时间:2021-11-14 23:30:56 其他开发

使用 Spark 计算节点之间的链接

我在 Spark 2.2 和 Scala 2.11 中有以下两个 DataFrame.DataFrame edges 定义了有向图的边,而 DataFrame types 定义了每个节点的类型. edges =+-----+-----+----+|从 |到 |attr|+-----+-----+----+|1|0|1||1|4|1||2|2|1||4|3|1||4|5|1|+-----+---- ..
发布时间:2021-11-14 23:30:21 其他开发

由于 .在spark的列名中

这是我现有的数据框 +-------------------+-------------------------+------------+--------------+-----------------+---------------------------+------------------------+----------------------------------------+-- ..
发布时间:2021-11-14 23:30:13 其他开发

自制 DataFrame 聚合/dropDuplicates Spark

我想对我的 DataFrame df 执行转换,以便我在最终 DataFrame 中只有每个键一次并且只有一次. 出于机器学习的目的,我不想在我的数据集中有偏差.这应该永远不会发生,但是我从数据源获得的数据包含这种“怪异".因此,如果我有具有相同键的行,我希望能够选择两者的组合(如平均值)或字符串连接(例如标签)或随机值集. 说我的 DataFrame df 看起来像这样: +--- ..
发布时间:2021-11-14 23:30:07 其他开发

开发连接到 azure CosmosDB 的 Scala Spark 应用程序

我正在开发连接到 cosmosDB 并且无法解决 SBT 中的依赖关系的 Scala Spark 应用程序.每当我包含 org.apache.spark 它与 azure-cosmosdb-spark 冲突,如果我取出 org.apache.spark 我无法让 spark sparkSession 解决. 我的 SBT 配置: name := "MyApp"版本:=“1.0"``斯卡拉版 ..
发布时间:2021-11-14 23:30:01 其他开发

获得 azure blob 存储的最佳方法是什么

我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表.知道 Spark 版本是 2.11 的最佳方法是什么. 解决方案 对于在本地运行的 Spark,有一个官方的 博客 介绍了如何从 Spark 访问 Azure Blob 存储.关键是你需要在core-site.xml文件中将Azure Storage account配置为HDFS兼容的存储,并添加 ..
发布时间:2021-11-14 23:29:59 其他开发