spark-dataframe - IT屋-程序员软件开发技术分享社区

PySpark 如何将 CSV 读入 Dataframe，并对其进行操作

我对 pyspark 很陌生，我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框，删除一些列，然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql ..

发布时间：2022-01-14 08:07:00 apache-spark mapreduce pyspark apache-spark-sql spark-dataframe 其他开发

spark数据帧中过滤器的多种条件

我有一个包含四个字段的数据框.字段名称之一是状态，我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询，但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件 ..

发布时间：2021-12-31 08:36:06 apache-spark apache-spark-sql spark-dataframe 其他开发

更改 spark 数据框中列的可为空属性

我正在手动创建一个数据框以进行一些测试.创建它的代码是: case class input(id:Long, var1:Int, var2:Int, var3:Double)val inputDF = sqlCtx.createDataFrame(List(input(1110,0,1001,-10.00),输入(1111,1,1001,10.00)，输入(1111,0,1002,10.00)) ..

发布时间：2021-12-07 13:08:33 scala apache-spark spark-dataframe 其他开发

Spark UDF 如何将 Map 转换为列

我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量，因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法，我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par ..

发布时间：2021-11-14 23:54:24 scala apache-spark spark-dataframe apache-zeppelin 其他开发

Spark (Scala) 在 for 循环内执行数据帧

我使用的是 spark 1.6.1 版本.我需要在循环中执行数据帧. for ( i ..

发布时间：2021-11-14 23:33:27 scala apache-spark apache-spark-sql spark-dataframe 其他开发

Apache Spark:如何使用Java在dataFrame中的空值列中插入数据

我必须使用 DataFrame2 将 DataFrame1 中可用的值插入到具有空值的列之一中.基本上更新 DataFrame2 中的列. 两个 DataFrame 都有 2 个公共列. 有没有办法使用 Java 做同样的事情?或者可以有不同的方法? 样本输入: 1) 文件 1.csv BILL_ID,BILL_NBR_TYPE_CD,BILL_NBR,VERSION,P ..

发布时间：2021-11-14 23:33:08 java apache-spark spark-dataframe Java开发

更改数据帧中的列值 spark scala

这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点? ..

发布时间：2021-11-14 23:32:31 scala apache-spark-sql spark-dataframe 其他开发

基于公共值的 Spark 过滤器 DataFrames

我有 DF1 和 DF2.第一个有一列“new_id"，第二个有一列“db_id" 我需要过滤掉第一个 DataFrame 中的所有行，其中 new_id 的值不在 db_id 中. val new_id = Seq(1, 2, 3, 4)val db_id = Seq(1, 4, 5, 6, 10) 然后我需要 new_id == 1 和 4 的行留在 df1 中并删除 news_id ..

发布时间：2021-11-14 23:32:13 scala apache-spark spark-dataframe 其他开发

无法读取，稍后在 Apache Spark 中查询文本文件

所以我正在尝试实现示例 Spark 编程示例使用我们提供的数据集.它是一个由 | 分隔的文件.但是，即使按照给定的说明进行操作，它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中，关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis ..

发布时间：2021-11-14 23:32:10 apache-spark apache-spark-sql spark-dataframe 其他开发

如何在火花图函数中输出多个(键，值)

输入数据格式如下: +------------+------------+---------------------+|学生证|对 |错误 |+--------------------+----------------+--------------------+|studentNo01 |a,b,c |x,y,z |+--------------------+----------------+- ..

发布时间：2021-11-14 23:31:52 scala apache-spark spark-dataframe 其他开发

Json 字段在转换为 spark DataFrame 时默认排序

当我从 json 文件创建数据帧时，json 文件中的字段默认在数据帧中排序.如何避免这种排序? Jsonfile 每行有一个 json 消息: {"name":"john","age":10,"class":2}{"name":"rambo","age":11,"class":3} 当我从这个文件创建数据框时: val jDF = sqlContext.read.json("/u ..

发布时间：2021-11-14 23:31:25 json scala apache-spark spark-dataframe 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象，如图在本教程中. 但是当我尝试获取 DataFrame 对象的计数时，它显示为 0 这是我的文件， employee.csv: empid,empname1000,汤姆2000，杰瑞我加载了上面的文件， val empDf = sqlContext.read.format("com.databr ..

发布时间：2021-11-14 23:31:22 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

Spark Dataframe 以错误的格式保存到 MongoDB

我正在使用 Spark-MongoDB我正在尝试将 DataFrame 保存到 MongoDB 中: val event = """{"Dev":[{"a":3},{"b":3}],"hr":[{"a":6}]}"“"val events = sc.parallelize(event :: Nil)val df = sqlc.read.json(事件)val saveConfig = Mongo ..

发布时间：2021-11-14 23:31:19 mongodb scala apache-spark spark-dataframe 其他开发

Spark - 范围、数据帧和内存管理

我很好奇 scope 如何与 Data Frame 和 Spark 配合使用.在下面的例子中，我有一个文件列表，每个文件独立加载到一个数据帧中，执行一些操作，然后，我们将 dfOutput 写入磁盘. val files = getListOfFiles("outputs/emailsSplit")对于(文件循环完成后，for 循环中的每个数据帧是被丢弃，还是留在内存中? 如果它们 ..

发布时间：2021-11-14 23:31:11 scala apache-spark spark-dataframe 其他开发

为什么 pyspark 选择未广播的变量?

我正在使用 pyspark 来分析数据集，我有点惊讶为什么即使我使用的是未广播的变量，以下代码仍能正常工作.> 有问题的变量是 video，它在函数 filter 中使用，在 join 之后. seed = random.randint(0,999)# df 是一个数据框# 视频只是一个随机采样的元素视频 = df.sample(False,0.001,seed).head()# 只是一个py ..

发布时间：2021-11-14 23:31:05 apache-spark distributed-computing pyspark spark-dataframe 其他开发

如何从 Spark 中的数据帧创建 EdgeRDD

我在 spark 中有一个数据框.每行代表一个人，我想检索他们之间可能的联系.拥有链接的规则是，对于每个可能的对，如果它们具有相同的 prop1:String 并且 prop2:Int 的绝对差小于5 则链接存在.我试图了解使用数据框完成此任务的最佳方法. 我正在尝试检索索引的 RDD: val idusers = people.select("ID").rdd.map(r => r(0) ..

发布时间：2021-11-14 23:31:02 scala apache-spark spark-dataframe 其他开发

如何计算火花数据帧中一个列的差异?

+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201 ..

发布时间：2021-11-14 23:30:56 datetime apache-spark apache-spark-sql spark-dataframe 其他开发

将带有架构的火花数据帧转换为json字符串的数据帧

发布时间：2021-11-14 23:30:33 json scala apache-spark spark-dataframe 其他开发

使用 Spark 计算节点之间的链接

我在 Spark 2.2 和 Scala 2.11 中有以下两个 DataFrame.DataFrame edges 定义了有向图的边，而 DataFrame types 定义了每个节点的类型. edges =+-----+-----+----+|从 |到 |attr|+-----+-----+----+|1|0|1||1|4|1||2|2|1||4|3|1||4|5|1|+-----+---- ..

发布时间：2021-11-14 23:30:21 scala apache-spark spark-dataframe 其他开发

由于 .在spark的列名中

这是我现有的数据框 +-------------------+-------------------------+------------+--------------+-----------------+---------------------------+------------------------+----------------------------------------+-- ..

发布时间：2021-11-14 23:30:13 scala apache-spark spark-dataframe 其他开发

spark-dataframe相关内容