apache-spark-sql 第8页 - IT屋-程序员软件开发技术分享社区

如何将 Spark 数据帧输出转换为 json?

我正在读取带有 Spark SQL 上下文的 CSV 文件. 代码: m.put("path", CSV_DIRECTORY+file.getOriginalFilename());m.put("inferSchema", "true");//默认自动推断数据类型 else stringm.put("header", "true");//使用所有文件的第一行作为标题m.put("分隔符", ..

发布时间：2021-11-14 23:30:36 java json scala apache-spark apache-spark-sql Java开发

将 StructType 分解为 MapType Spark

在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{ ..

发布时间：2021-11-14 23:30:30 apache-spark apache-spark-sql 其他开发

如何重命名现有的 Spark SQL 函数

我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称，例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register(" ..

发布时间：2021-11-14 23:30:27 apache-spark apache-spark-sql user-defined-functions 其他开发

突然抛出这个 RDD 缺少一个 SparkContext 它在每个代码都在 main 方法之前工作

这是一段有效的代码，但在我尝试从不同的 scala 对象创建 Sparksession 后突然无法工作 val b = a.filter { x =>(!x._2._1.isEmpty) &&(!x._2._2.isEmpty) }val primary_ke = b.map(rec => (rec._1.split(",")(0))).distinctfor (i ..

发布时间：2021-11-14 23:30:24 scala apache-spark apache-spark-sql 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常，线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..

发布时间：2021-11-14 23:30:16 json apache-spark apache-spark-sql parquet 其他开发

我有一个低于 Cols 的数据集. df.show();+--------+---------+---------+---------+---------+|列 1 |Col2 |花费1 |支出2 |花费3 |+--------+---------+---------+---------+---------+|值 1 |Cvalue1 |123 |2254 |22 ||值 1 |Cvalue2 ..

发布时间：2021-11-14 23:30:10 apache-spark dataframe apache-spark-sql apache-spark-dataset 其他开发

SparkR - 转换为日期格式

如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中，我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU ..

发布时间：2021-11-14 23:30:04 r apache-spark apache-spark-sql sparkr 其他开发

为什么 Spark 应用程序在 spark-shell 中工作但因“org.apache.spark.SparkException: Task not serializable"而失败?在 Eclipse 中?

为了将文件(以 | 分隔)保存到 DataFrame 中，我开发了下一个代码: val file = sc.textFile("path/file/")val rddFile = file.map(a => a.split("\\|")).map(x => ArchivoProcesar(x(0), x(1), x(2), x(3))val dfInsumos = rddFile.toDF() ..

发布时间：2021-11-14 23:29:53 eclipse scala apache-spark apache-spark-sql Java开发

错误:对象 xml 不是包 com.databricks.spark 的成员

我正在尝试使用 SBT 读取 XML 文件，但在编译时遇到问题. build.sbt name:= "First Spark"版本:=“1.0"组织:=“in.goai"斯卡拉版本:=“2.11.8"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"libraryDependencies += "org.a ..

发布时间：2021-11-14 23:29:44 scala apache-spark sbt apache-spark-sql scala-xml 其他开发

如何强制 spark 避免数据集重新计算?

我有一个从 cassandra 中加载的数据集.加载此数据集后，我将从 cassandra 中删除一些项目，但我希望我的数据集作为下一个计算的第一个.我已经使用 persist(DISK_ONLY) 来解决它，但它似乎是尽力而为.如何强制 spark 避免重新计算? 示例: val dataset:Dataset[Int] = ???//来自 cassandra 的东西dataset.p ..

发布时间：2021-11-14 23:29:41 apache-spark apache-spark-sql 其他开发

如何制作整数索引行?

我有一个数据帧: +-----+--------+---------+|usn|log_type|item_code|+-----+--------+---------+|0|11|I0938||916|19|I0009||916|51|I1097||916|19|C0723||916|19|I0010||916|19|I0010||12331|19|C0117||12331|19|C0117| ..

发布时间：2021-11-14 23:29:35 python apache-spark pyspark apache-spark-sql Python

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先，我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来，我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..

发布时间：2021-11-14 23:29:32 apache-spark-sql spark-dataframe 其他开发

如何在 CASE 语句中使用数组类型列值

我有一个包含两列的数据框，listA 存储为 Seq[String] 和 valB 存储为 String>.我想创建第三列 valC，它将是 Int 类型，其值为如果 valB 存在于 listA 中则为 1 否则为 0 我尝试执行以下操作: val dfWithAdditionalColumn = df.withColumn("valC", when($"listA".contain ..

发布时间：2021-11-14 23:29:30 apache-spark apache-spark-sql pyspark-sql 其他开发

在数据框 spark 中查找属性组合的前 n 个元素

我有一个如下所示的数据框. Scala>ds.show+----+----------+----------+-----+|键|属性1|属性2|值|+----+----------+----------+-----+|mac1|A1|B1|10||mac2|A2|B1|10||mac3|A2|B1|10||mac1|A1|B2|10||mac1|A1|B2|10||mac3|A1|B1|10| ..

发布时间：2021-11-14 23:29:27 apache-spark apache-spark-sql 其他开发

Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据

我们有一个包含 275 个节点的 Hadoop 集群(55Tb 总内存，12000 个 VCore).这个集群与几个项目共享，我们有一个 YARN 队列分配给我们，但资源有限. 为了增强性能，我们正在考虑为我们的项目构建一个单独的 Spark 集群(在同一网络中的 Mesos 上)并访问 Hadoop 集群上的 HDFS 数据. 如 Spark 文档中所述:https://spark. ..

发布时间：2021-11-14 23:29:24 hadoop apache-spark apache-spark-sql mesos 其他开发

为什么 HiveConnection 不支持 getHoldability()?将 C3P0 与 HiveDriver 一起使用

我正在尝试将 C3P0 (com.mchange.v2.c3p0.ComboPooledDataSource) 与 HiveDriver (org.apache.hive.jdbc.HiveDriver).我有一个例外: java.sql.SQLException:不支持方法在 org.apache.hive.jdbc.HiveConnection.getHoldability(HiveConn ..

发布时间：2021-11-14 23:29:21 jdbc hive apache-spark-sql connection-pooling c3p0 其他开发

根据日期和日期之前聚合火花数据框

我有一个带有日期类型的 start_date 列的 DataFrame.现在我必须为 column1 中的唯一值生成度量，并且 start_date 早于或等于.以下是输入数据帧 column1 column2 start_dateid1 val1 2018-03-12id1 val2 2018-03-12id2 val3 2018-03-12id3 val4 2018-03-12id4 val ..

发布时间：2021-11-14 23:28:57 scala apache-spark apache-spark-sql 其他开发

通过组合类型和子类型的 Apache Spark 组

我在 spark 中有这个数据集， val sales = Seq((“华沙"，2016，“脸书"，“分享"，100)，(“华沙"，2017，“脸书"，“喜欢"，200)，(“波士顿"，2015，“推特"，“分享"，50)，(“波士顿"，2016 年，“facebook"，“分享"，150)，(“多伦多"，2017，“推特"，“喜欢"，50)).toDF("city", "year","medi ..

发布时间：2021-11-14 23:28:51 scala apache-spark pyspark apache-spark-sql pyspark-sql 其他开发

如何使用 Java 将 Spark 数据集的所有列转换为字符串

我有一个包含很多列的数据集，我想使用 Java 将所有列转换为字符串. 我尝试了以下步骤，我想知道是否有更好的方法来实现这一目标? 数据集ds = ...;JavaRDDstringArrRDD = ds.javaRDD().map(row->{int length = row.length();字符串[] 列 = 新字符串[长度];for(int i=0; i 解决方案您可以遍历列 ..

发布时间：2021-11-14 23:28:48 java apache-spark dataframe apache-spark-sql Java开发

PySpark 插入覆盖问题

以下是 PySpark ETL 代码的最后两行: df_writer = DataFrameWriter(usage_fact)df_writer.partitionBy("data_date", "data_product").saveAsTable(usageWideFactTable, format=fileFormat,mode=writeMode,path=usageWideFactp ..

发布时间：2021-11-14 23:28:42 apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql 其他开发

apache-spark-sql相关内容