spark-dataframe 第3页 - IT屋-程序员软件开发技术分享社区

Spark - 当我从地图调用自定义函数时收到 java.lang.UnsupportedOperationException

我有一个类似于以下结构的 DataFrame: root|-- NPAData: struct (nullable = true)||-- NPADetails: struct (nullable = true)|||-- 位置:字符串(可为空 = 真)|||-- manager: string (nullable = true)||-- 服务:数组(可为空 = 真)|||-- 元素: stru ..

发布时间：2021-11-14 23:27:44 scala apache-spark spark-dataframe 其他开发

PySpark 2.1.1 groupby + approx_count_distinct 计数为 0

我正在使用 Spark 2.1.1 (pyspark)，在一个大约有 14 亿行的 DataFrame 上进行 groupby 和 approx_count_distinct 聚合.groupby 操作导致大约 600 万个组对其执行 approx_count_distinct 操作.这些组的预期不同计数范围从个位数到数百万不等. 这是我正在使用的代码片段，其中包含项目 ID 的列“item ..

发布时间：2021-11-14 23:27:41 apache-spark spark-dataframe 其他开发

根据带条件的时间戳获取数据框中的最新记录

我的问题标题可能不准确，但我希望我能够解释我的问题所以我有一个像下面这样的数据框 DataPartition_1|^|PartitionYear_1|^|TimeStamp|^|OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber_1|^|FFAction_1SelfSourcedPublic|^|2001|^|151 ..

发布时间：2021-11-14 23:27:34 apache-spark apache-spark-sql spark-dataframe 其他开发

Spark 错误:线程“main"中的异常java.lang.UnsupportedOperationException

我正在编写一个 Scala/spark 程序，它可以找到员工的最高工资.员工数据在 CSV 文件中可用，薪水列有一个逗号分隔符，它还有一个 $ 前缀，例如74,628.00 美元. 为了处理这个逗号和美元符号，我在 Scala 中编写了一个解析器函数，它将在“,"上拆分每一行，然后将每一列映射到要分配给案例类的各个变量. 我的解析器程序如下所示.为了消除逗号和美元符号，我使用替换函数将 ..

发布时间：2021-11-14 23:27:28 scala apache-spark spark-dataframe 其他开发

Spark 的 dataframe count() 函数需要很长时间

在我的代码中，我有一系列数据帧，我想在其中过滤掉空的数据帧.我正在做类似的事情: Seq(df1, df2).map(df => df.count() > 0) 但是，这需要非常长的时间，并且大约需要 7 分钟来处理大约 2 个 100k 行的数据帧. 我的问题:为什么 Spark 的 count() 实现很慢.有解决办法吗? 解决方案 Count 是一个惰性操作.因此，您的数据 ..

发布时间：2021-11-14 23:27:25 apache-spark dataframe spark-dataframe 其他开发

如何使用另一个数据帧标题更改数据帧的标题?

我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^| ..

发布时间：2021-11-14 23:27:16 scala apache-spark spark-dataframe spark-csv 其他开发

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先，我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来，我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..

发布时间：2021-11-14 23:27:10 apache-spark-sql spark-dataframe 其他开发

使用 Spark 计算节点之间的链接

我在 Spark 2.2 和 Scala 2.11 中有以下两个 DataFrame.DataFrame edges 定义了有向图的边，而 DataFrame types 定义了每个节点的类型. edges =+-----+-----+----+|从 |到 |attr|+-----+-----+----+|1|0|1||1|4|1||2|2|1||4|3|1||4|5|1|+-----+---- ..

发布时间：2021-11-14 23:27:07 scala apache-spark spark-dataframe 其他开发

自制 DataFrame 聚合/dropDuplicates Spark

我想对我的 DataFrame df 执行转换，以便我在最终 DataFrame 中只有每个键一次并且只有一次. 出于机器学习的目的，我不想在我的数据集中有偏差.这应该永远不会发生，但是我从数据源获得的数据包含这种“怪异".因此，如果我有具有相同键的行，我希望能够选择两者的组合(如平均值)或字符串连接(例如标签)或随机值集. 说我的 DataFrame df 看起来像这样: +--- ..

发布时间：2021-11-14 23:26:58 scala apache-spark spark-dataframe rdd 其他开发

将带有架构的火花数据帧转换为json字符串的数据帧

发布时间：2021-11-14 23:26:39 json scala apache-spark spark-dataframe 其他开发

如何从 Spark 中的数据帧创建 EdgeRDD

我在 spark 中有一个数据框.每行代表一个人，我想检索他们之间可能的联系.拥有链接的规则是，对于每个可能的对，如果它们具有相同的 prop1:String 并且 prop2:Int 的绝对差小于5 则链接存在.我试图了解使用数据框完成此任务的最佳方法. 我正在尝试检索索引的 RDD: val idusers = people.select("ID").rdd.map(r => r(0) ..

发布时间：2021-11-14 23:26:21 scala apache-spark spark-dataframe 其他开发

为什么 pyspark 选择未广播的变量?

我正在使用 pyspark 来分析数据集，我有点惊讶为什么即使我使用的是未广播的变量，以下代码仍能正常工作.> 有问题的变量是 video，它在函数 filter 中使用，在 join 之后. seed = random.randint(0,999)# df 是一个数据框# 视频只是一个随机采样的元素视频 = df.sample(False,0.001,seed).head()# 只是一个py ..

发布时间：2021-11-14 23:26:15 apache-spark distributed-computing pyspark spark-dataframe 其他开发

Json 字段在转换为 spark DataFrame 时默认排序

当我从 json 文件创建数据帧时，json 文件中的字段默认在数据帧中排序.如何避免这种排序? Jsonfile 每行有一个 json 消息: {"name":"john","age":10,"class":2}{"name":"rambo","age":11,"class":3} 当我从这个文件创建数据框时: val jDF = sqlContext.read.json("/u ..

发布时间：2021-11-14 23:25:53 json scala apache-spark spark-dataframe 其他开发

Spark - 范围、数据帧和内存管理

我很好奇 scope 如何与 Data Frame 和 Spark 配合使用.在下面的例子中，我有一个文件列表，每个文件独立加载到一个数据帧中，执行一些操作，然后，我们将 dfOutput 写入磁盘. val files = getListOfFiles("outputs/emailsSplit")对于(文件循环完成后，for 循环中的每个数据帧是被丢弃，还是留在内存中? 如果它们 ..

发布时间：2021-11-14 23:25:43 scala apache-spark spark-dataframe 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象，如图在本教程中. 但是当我尝试获取 DataFrame 对象的计数时，它显示为 0 这是我的文件， employee.csv: empid,empname1000,汤姆2000，杰瑞我加载了上面的文件， val empDf = sqlContext.read.format("com.databr ..

发布时间：2021-11-14 23:25:37 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

Apache Spark RDD 替换

我正在尝试解决一个问题，这样我就有了这样的数据集: (1, 3)(1, 4)(1, 7)(1, 2) 由于 (1 -> 2) 和 (2 -> 7)，我想替换集合 (2, 7) 为 (1, 7)类似地，(3 -> 7) 和 (7 -> 4) 也将 (7,4) 替换为 (3, 4) 因此，我的数据集变成了 (1, 3)(1, 4)(1, 7)(1, 2)(1, 7)(6, 6)(3, 7 ..

发布时间：2021-11-14 23:25:34 scala apache-spark spark-dataframe rdd apache-spark-dataset 其他开发

Spark Dataframe 以错误的格式保存到 MongoDB

我正在使用 Spark-MongoDB我正在尝试将 DataFrame 保存到 MongoDB 中: val event = """{"Dev":[{"a":3},{"b":3}],"hr":[{"a":6}]}"“"val events = sc.parallelize(event :: Nil)val df = sqlc.read.json(事件)val saveConfig = Mongo ..

发布时间：2021-11-14 23:25:31 mongodb scala apache-spark spark-dataframe 其他开发

如何计算火花数据帧中一个列的差异?

+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201 ..

发布时间：2021-11-14 23:25:21 datetime apache-spark apache-spark-sql spark-dataframe 其他开发

将 DataFrame 保存到 Hive 时 Spark Scala 错误

我通过组合多个数组构建了一个 DataFrame.我正在尝试将其保存到配置单元表中，但出现 ArrayIndexOutofBound 异常.以下是代码和我得到的错误.我尝试在 main def 内外添加 case 类，但仍然遇到相同的错误. import org.apache.spark.{SparkConf, SparkContext}导入 org.apache.spark.sql.{Row, ..

发布时间：2021-11-14 23:18:53 scala apache-spark apache-spark-sql spark-dataframe apache-spark-ml 其他开发

使用 Scala 将 RDD 转换为 Spark 中的 DataFrame

我有 textRDD: org.apache.spark.rdd.RDD[(String, String)] 我想将其转换为 DataFrame.列对应每页(行)的标题和内容. 解决方案使用 toDF()，如果有列名，请提供. val textDF = textRDD.toDF("title": String, "content": String)textDF:org.apach ..

发布时间：2021-11-14 23:18:41 scala apache-spark type-conversion rdd spark-dataframe 其他开发

spark-dataframe相关内容