apache-spark-sql相关内容

将 StructType 分解为 MapType Spark

在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{ ..
发布时间:2021-11-14 23:30:30 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..
发布时间:2021-11-14 23:30:16 其他开发

如何强制 spark 避免数据集重新计算?

我有一个从 cassandra 中加载的数据集.加载此数据集后,我将从 cassandra 中删除一些项目,但我希望我的数据集作为下一个计算的第一个.我已经使用 persist(DISK_ONLY) 来解决它,但它似乎是尽力而为.如何强制 spark 避免重新计算? 示例: val dataset:Dataset[Int] = ???//来自 cassandra 的东西dataset.p ..
发布时间:2021-11-14 23:29:41 其他开发

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先,我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来,我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..
发布时间:2021-11-14 23:29:32 其他开发

Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据

我们有一个包含 275 个节点的 Hadoop 集群(55Tb 总内存,12000 个 VCore).这个集群与几个项目共享,我们有一个 YARN 队列分配给我们,但资源有限. 为了增强性能,我们正在考虑为我们的项目构建一个单独的 Spark 集群(在同一网络中的 Mesos 上)并访问 Hadoop 集群上的 HDFS 数据. 如 Spark 文档中所述:https://spark. ..
发布时间:2021-11-14 23:29:24 其他开发

通过组合类型和子类型的 Apache Spark 组

我在 spark 中有这个数据集, val sales = Seq((“华沙",2016,“脸书",“分享",100),(“华沙",2017,“脸书",“喜欢",200),(“波士顿",2015,“推特",“分享",50),(“波士顿",2016 年,“facebook",“分享",150),(“多伦多",2017,“推特",“喜欢",50)).toDF("city", "year","medi ..
发布时间:2021-11-14 23:28:51 其他开发

如何使用 Java 将 Spark 数据集的所有列转换为字符串

我有一个包含很多列的数据集,我想使用 Java 将所有列转换为字符串. 我尝试了以下步骤,我想知道是否有更好的方法来实现这一目标? 数据集ds = ...;JavaRDDstringArrRDD = ds.javaRDD().map(row->{int length = row.length();字符串[] 列 = 新字符串[长度];for(int i=0; i 解决方案 您可以遍历列 ..
发布时间:2021-11-14 23:28:48 Java开发