apache-spark 第8页 - IT屋-程序员软件开发技术分享社区

SparkSQL 支持子查询吗?

我在 Spark shell 中运行此查询，但它给了我错误， sqlContext.sql(“从samplecsv中选择sal，其中sal 错误: java.lang.RuntimeException: [1.47] failure: ``)'' 预期但发现标识符 MAX 从samplecsv中选择sal，其中sal (从 samplecsv 中选择 MAX(sal))^在 s ..

发布时间：2022-01-23 15:36:25 sql apache-spark subquery apache-spark-sql 其他开发

如何将行数据转置/旋转到 Spark Scala 中的列?

我是 Spark-SQL 的新手.我在 Spark Dataframe 中有这样的信息公司类型状态A X 完成完成A Z 完成C X 完成完成B Y 完成我想显示如下公司 X-type Y-type Z-typeA done done doneB 待定已完成待定C 已完成待定我无法实现这是 Spark-SQL 请帮忙解决方案你可以groupby Company ..

发布时间：2022-01-22 21:32:50 scala apache-spark apache-spark-sql pivot 其他开发

PySpark:如何转置数据框中的多列

我是 Spark 的新手，在使用 PySpark 或 Spark Sql 将以下输入数据帧转换为所需的输出 df(行到列)时需要帮助. 输入数据框- A B C D1 2 3 410 11 12 13……........... 所需的输出(转置)数据 A 1乙二C 3411乙 12C 1314………… 如果我可以根据我们的要求旋转输入数据(列)会更好. 解决方案你可以做一个 ..

发布时间：2022-01-22 21:28:10 apache-spark pyspark apache-spark-sql pivot transpose 其他开发

中提到的例子http://spark.apache.org/docs/latest/streaming-编程指南.html让我在 TCP 流中接收数据包并监听端口 9999 导入 org.apache.spark._导入 org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext._//从 Spa ..

发布时间：2022-01-22 17:17:08 scala sockets apache-spark udp spark-streaming 其他开发

将新数据附加到分区 parquet 文件

我正在编写一个 ETL 过程，我需要读取每小时的日志文件、对数据进行分区并保存它.我正在使用 Spark(在 Databricks 中).日志文件是 CSV，所以我阅读它们并应用模式，然后执行我的转换. 我的问题是，如何将每小时的数据保存为镶木地板格式但附加到现有数据集?保存时，我需要按数据框中存在的 4 列进行分区. 这是我的存档: 数据.filter(validPartnerId ..

发布时间：2022-01-22 11:37:03 scala apache-spark append parquet 其他开发

火花数据集分组和总和

我使用 Spark 1.6.1 和 Java 作为编程语言.以下代码在 dataframes 上运行良好: simpleProf.groupBy(col("col1"), col("col2") ).agg(总和(“CURRENT_MONTH")，总和(“上一月")); 但是，它不使用数据集，知道如何在 Java/Spark 中对数据集执行相同的操作吗? 干杯解决方案它 ..

发布时间：2022-01-21 13:41:55 java apache-spark dataframe dataset Java开发

如何将 Scala Spark Dataset.show 重定向到 log4j 记录器

Spark API 文档展示了如何从发送到标准输出的数据集或数据帧中获取漂亮的打印片段. 可以将此输出定向到 log4j 记录器吗?或者:有人可以共享将创建类似于 df.show() 格式的输出的代码吗? 有没有办法让标准输出在将 .show() 输出推送到记录器之前和之后都进入控制台? http://spark.apache.org/docs/latest/sql-progra ..

发布时间：2022-01-21 13:32:54 scala logging apache-spark dataset 其他开发

Spark Scala:将任意 N 列转换为 Map

我有以下数据结构，表示电影 ID(第一列)和其余列中不同用户对该电影的评分 - 类似这样: +-------+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+|电影ID|1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|+-------+----+----+----+--- ..

发布时间：2022-01-21 13:21:27 scala apache-spark dataframe dataset 其他开发

如何将自定义 Java 类转换为 Spark 数据集

我不知道如何将测试对象列表转换为 Spark 中的数据集这是我的课: 公共类测试{公共字符串一个；公共字符串 b;公共测试(字符串 a，字符串 b){这.a = a;这个.b = b;}公共列表 getList(){列表 l = new ArrayList();l.add(this.a);l.add(this.b);返回 l;}} 解决方案您在注释中创建 DataFrame 的代码是正确的 ..

发布时间：2022-01-21 13:18:15 java apache-spark dataset Java开发

Spark 默认空列数据集

我无法让 Spark 将 json(或 csv )作为具有 Option[_] 字段的案例类的 Dataset 读取并非所有字段都在源代码中定义. 这有点神秘，但假设我有一个名为 CustomData 的案例类给定以下 json 文件 (customA.json): {"id":123, "colA": "x", "colB": "z"}{“id":456，“colA":“y"}{ ..

发布时间：2022-01-21 13:06:52 json scala apache-spark dataset 其他开发

如何在 Spark 中显示 KeyValueGroupedDataset?

我正在尝试学习 Spark 中的数据集.我想不通的一件事是如何显示 KeyValueGroupedDataset，因为 show 对它不起作用.另外，KeyValuGroupedDataSet 的 map 等价物是什么?如果有人举一些例子，我将不胜感激. 解决方案好的，我从给出的示例中得到了这个想法这里和这里.我在下面给出一个我写的简单例子. val x = Seq(("a", ..

发布时间：2022-01-21 13:06:00 scala apache-spark dataset rdd 其他开发

如何从 RDD 创建 Spark 数据集

我有一个 RDD[LabeledPoint] 打算在机器学习管道中使用.我们如何将 RDD 转换为 DataSet?请注意较新的 spark.ml api 需要 Dataset 格式的输入. 解决方案这是一个遍历额外步骤的答案 - DataFrame.我们使用 SQLContext 创建一个 DataFrame，然后使用所需的对象类型创建一个 DataSet - 在本例中为 Labele ..

发布时间：2022-01-21 13:05:46 scala apache-spark dataset apache-spark-dataset 其他开发

Spark:显式缓存会干扰 Catalyst 优化器优化某些查询的能力?

我正在学习参加数据砖火花认证考试和他们的实践考试(请参阅> https://databricks-prod-cloudfront.cloud.databricks.com/public/793177bc53e528530b06c78a4fa0e086/0/6221173/100020/latest.html) 要求我们接受此陈述为真实事实: “显式缓存会通过干扰降低应用程序性能借助 Cata ..

发布时间：2022-01-21 12:45:56 performance apache-spark dataset catalyst 其他开发

Spark Scala 2.10 元组限制

我有 66 列要处理的 DataFrame(几乎每个列的值都需要以某种方式更改)所以我正在运行以下语句 val 结果 = data.map(row=> (修改(row.getString(row.fieldIndex(“XX")))，(...))) 直到第 66 列.由于此版本中的 scala 限制为 22 对的最大元组，我不能那样执行此操作.问题是，有什么解决方法吗?在所有行操作之后，我将 ..

发布时间：2022-01-20 08:15:26 scala apache-spark tuples dataframe limit 其他开发

在同一个 JVM 中检测到多个 SparkContext

根据我的最后一个问题，我必须为我的独特的 JVM. 我用下一个方法(使用 Java): SparkConf conf = new SparkConf();conf.setAppName("Spark MultipleContest 测试");conf.set("spark.driver.allowMultipleContexts", "true");conf.setMaster("本地" ..

发布时间：2022-01-16 12:45:18 java apache-spark jvm Java开发

如何使用 spark-submit 在集群模式下将环境变量传递给 spark 驱动程序

spark-submit 允许使用 --conf spark.executorEnv.FOO=bar 配置执行器环境变量，Spark REST API 允许传递一些环境变量environmentVariables 字段.不幸的是，在集群模式下使用 spark-submit 提交驱动程序时，我没有发现与配置驱动程序环境变量类似的东西: spark-submit --deploy-mode clus ..

发布时间：2022-01-16 00:11:25 apache-spark environment-variables 其他开发

在 Spark 执行器节点上安装 Python 依赖项的最简单方法是什么?

我了解您可以使用 Python Spark 程序将单个文件作为依赖项发送.但是成熟的库(例如 numpy)呢? Spark 是否有办法使用提供的包管理器(例如 pip)来安装库依赖项?还是必须在执行 Spark 程序之前手动完成? 如果答案是手动，那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践"方法是什么? 解决方案实际上已经尝试过了，我认为我作为评论发布的链接 ..

发布时间：2022-01-15 22:21:28 hadoop dependencies apache-spark shared-libraries distributed-computing 其他开发

如何使用 Spark java 从 mariadb 读取数据

我需要使用 Spark 和 Java 从 MariaDB 读取一个表. 我写了一个从数据库读取表数据的Java代码.连接建立成功，但是读取数据时出错.我正在尝试将表数据作为数据框读取.但是列名在结果中显示为列值.找到下面给出的代码: import java.io.IOException;导入 java.io.InputStream；导入 java.util.Properties；导入 ..

发布时间：2022-01-15 20:43:00 java apache-spark jdbc apache-spark-sql mariadb Java开发

如何将 Spark 中的 DataFrame 转换为 HadoopRDD

我喜欢在 spark 中将数据帧写入 dynamodb.所以我使用 rdd.saveAsHadoopDataset(JobConf).但是 rdd 类型不匹配.它需要 hadoopRDD 类型的 rdd.所以我喜欢将数据帧转换为 rdd.我使用过 df.rdd 这给了我 rdd 但不是 hadoopRDD.我正在使用 spark-scala API.如果有任何更好的方法可以从 spark 将 Da ..

发布时间：2022-01-15 17:47:12 scala apache-spark amazon-dynamodb 其他开发

在 Spark 中简单的 RDD 写入 DynamoDB

刚刚尝试将基本的 RDD 数据集导入 DynamoDB.这是代码: 导入 org.apache.hadoop.mapred.JobConfvar rdd = sc.parallelize(Array(("", Map("col1" -> Map("s" -> "abc")), "col2" -> Map("n" -> "123")))))var jobConf = new JobConf(sc. ..

发布时间：2022-01-15 17:44:11 hadoop apache-spark amazon-dynamodb amazon-emr 其他开发

apache-spark相关内容