apache-spark-sql相关内容

Spark Sql - 插入外部 Hive 表错误

我正在尝试通过 spark sql 将数据插入到外部配置单元表中.我的蜂巢表是通过一列存储的.创建外部配置单元表的查询是这样的 create external table tab1 (col1 type,col2 type,col3 type) 由 (col1,col2) 聚类并由 (col1) 排序成 8 个存储为 parquet 的桶 现在我尝试将 Parquet 文件(存储在 hdfs ..
发布时间:2021-11-14 23:28:26 其他开发

如何基于相等性检查在 Spark 中使用内部数组查询嵌套 json

我有一个嵌套的 json 结构加载到 spark 中的数据帧中.它包含多层数组,我正试图弄清楚如何通过内部数组中的值来查询这个结构. 示例:考虑以下结构(directors.json 文件) [{“导演":“史蒂文·斯皮尔伯格",“电影":[{"name": "E.T",“演员":[“亨利·托马斯"、“德鲁·巴里摩尔"]},{"name": "The Goonies",“演员":[“肖恩· ..
发布时间:2021-11-14 23:28:20 其他开发

Pyspark 数据帧中的 Timedelta - TypeError

我正在使用 pyspark 2.3.1 开发 Spark 2.3、Python 3.6 我有一个 Spark DataFrame,其中每个条目都是一个工作步骤,我想将一些行合并到一个工作会话中.这应该在下面的函数 getSessions 中完成.我相信它有效. 我进一步创建了一个包含我想要的所有信息的 RDD - 每个条目都是一个带有所需列的 Row 对象,看起来类型很好(一些数据被伪 ..
发布时间:2021-11-14 23:28:08 其他开发

如何在 Scala 中使用 spark cassandra 连接器 API

我之前的帖子:修复准备好的 stmt 警告. 我无法解决它,建议很少,我尝试使用 spark cassandra 连接器来解决我的问题.但我对它在我的应用程序中的使用感到完全困惑.我尝试编写如下代码,但不确定如何使用 API. val conf = new SparkConf(true).set("spark.cassandra.connection.host", "1.1.1.1").s ..

在 SparkSQL 中使用窗口函数 (dense_rank()) 进行选择

我有一个包含客户购买记录的表格,我需要指定购买是在特定日期时间窗口内进行的,一个窗口是 8 天,所以如果我今天购买了 5 天内购买了一次,那么如果窗口号是我的购买1,但如果我在今天的第一天和 8 天后的第二天这样做,第一次购买将在窗口 1 中,最后一次购买将在窗口 2 中 创建临时表事务(client_id int,transaction_ts 日期时间,store_id int)插入交易值(1 ..
发布时间:2021-11-14 23:27:56 数据库

如何强制 spark 避免数据集重新计算?

我有一个从 cassandra 中加载的数据集.加载此数据集后,我将从 cassandra 中删除一些项目,但我希望我的数据集作为下一个计算的第一个.我已经使用 persist(DISK_ONLY) 来解决它,但它似乎是尽力而为.如何强制 spark 避免重新计算? 示例: val dataset:Dataset[Int] = ???//来自 cassandra 的东西dataset.p ..
发布时间:2021-11-14 23:27:53 其他开发

Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据

我们有一个包含 275 个节点的 Hadoop 集群(55Tb 总内存,12000 个 VCore).这个集群与几个项目共享,我们有一个 YARN 队列分配给我们,但资源有限. 为了增强性能,我们正在考虑为我们的项目构建一个单独的 Spark 集群(在同一网络中的 Mesos 上)并访问 Hadoop 集群上的 HDFS 数据. 如 Spark 文档中所述:https://spark. ..
发布时间:2021-11-14 23:27:22 其他开发

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先,我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来,我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..
发布时间:2021-11-14 23:27:10 其他开发