spark-dataframe相关内容
我对 pyspark 很陌生,我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框,删除一些列,然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql
..
我有一个包含四个字段的数据框.字段名称之一是状态,我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询,但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件
..
我正在手动创建一个数据框以进行一些测试.创建它的代码是: case class input(id:Long, var1:Int, var2:Int, var3:Double)val inputDF = sqlCtx.createDataFrame(List(input(1110,0,1001,-10.00),输入(1111,1,1001,10.00),输入(1111,0,1002,10.00))
..
我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量,因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法,我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par
..
我使用的是 spark 1.6.1 版本.我需要在循环中执行数据帧. for ( i
..
我必须使用 DataFrame2 将 DataFrame1 中可用的值插入到具有空值的列之一中.基本上更新 DataFrame2 中的列. 两个 DataFrame 都有 2 个公共列. 有没有办法使用 Java 做同样的事情?或者可以有不同的方法? 样本输入: 1) 文件 1.csv BILL_ID,BILL_NBR_TYPE_CD,BILL_NBR,VERSION,P
..
这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点?
..
我有 DF1 和 DF2.第一个有一列“new_id",第二个有一列“db_id" 我需要过滤掉第一个 DataFrame 中的所有行,其中 new_id 的值不在 db_id 中. val new_id = Seq(1, 2, 3, 4)val db_id = Seq(1, 4, 5, 6, 10) 然后我需要 new_id == 1 和 4 的行留在 df1 中并删除 news_id
..
所以我正在尝试实现示例 Spark 编程示例 使用我们提供的数据集.它是一个由 | 分隔的文件.但是,即使按照给定的说明进行操作,它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中,关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis
..
输入数据格式如下: +------------+------------+---------------------+|学生证|对 |错误 |+--------------------+----------------+--------------------+|studentNo01 |a,b,c |x,y,z |+--------------------+----------------+-
..
当我从 json 文件创建数据帧时,json 文件中的字段默认在数据帧中排序.如何避免这种排序? Jsonfile 每行有一个 json 消息: {"name":"john","age":10,"class":2}{"name":"rambo","age":11,"class":3} 当我从这个文件创建数据框时: val jDF = sqlContext.read.json("/u
..
我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象,如图 在本教程中. 但是当我尝试获取 DataFrame 对象的计数时,它显示为 0 这是我的文件, employee.csv: empid,empname1000,汤姆2000,杰瑞 我加载了上面的文件, val empDf = sqlContext.read.format("com.databr
..
我正在使用 Spark-MongoDB我正在尝试将 DataFrame 保存到 MongoDB 中: val event = """{"Dev":[{"a":3},{"b":3}],"hr":[{"a":6}]}"“"val events = sc.parallelize(event :: Nil)val df = sqlc.read.json(事件)val saveConfig = Mongo
..
我很好奇 scope 如何与 Data Frame 和 Spark 配合使用.在下面的例子中,我有一个文件列表,每个文件独立加载到一个数据帧中,执行一些操作,然后,我们将 dfOutput 写入磁盘. val files = getListOfFiles("outputs/emailsSplit")对于(文件 循环完成后,for 循环 中的每个数据帧是被丢弃,还是留在内存中? 如果它们
..
我正在使用 pyspark 来分析数据集,我有点惊讶为什么即使我使用的是未广播的变量,以下代码仍能正常工作.> 有问题的变量是 video,它在函数 filter 中使用,在 join 之后. seed = random.randint(0,999)# df 是一个数据框# 视频只是一个随机采样的元素视频 = df.sample(False,0.001,seed).head()# 只是一个py
..
我在 spark 中有一个数据框.每行代表一个人,我想检索他们之间可能的联系.拥有链接的规则是,对于每个可能的对,如果它们具有相同的 prop1:String 并且 prop2:Int 的绝对差小于5 则链接存在.我试图了解使用数据框完成此任务的最佳方法. 我正在尝试检索索引的 RDD: val idusers = people.select("ID").rdd.map(r => r(0)
..
+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201
..
我有一个这样的数据框: +--+--------+--------+----+-------------+------------------------------+|id|name |lastname|age |timestamp |creditcards |+--+--------+--------+----+------------+---------------------------
..
我在 Spark 2.2 和 Scala 2.11 中有以下两个 DataFrame.DataFrame edges 定义了有向图的边,而 DataFrame types 定义了每个节点的类型. edges =+-----+-----+----+|从 |到 |attr|+-----+-----+----+|1|0|1||1|4|1||2|2|1||4|3|1||4|5|1|+-----+----
..
这是我现有的数据框 +-------------------+-------------------------+------------+--------------+-----------------+---------------------------+------------------------+----------------------------------------+--
..