spark-cassandra-connector相关内容

Apache Spark 需要 5 到 6 分钟来简单计算来自 Cassandra 的 10 亿行

我使用的是 Spark Cassandra 连接器.从 Cassandra 表中获取数据需要 5-6 分钟.在 Spark 中,我在日志中看到了许多任务和 Executor.原因可能是 Spark 把流程分成了很多任务! 下面是我的代码示例: public static void main(String[] args) {SparkConf conf = new SparkConf(tru ..
发布时间:2021-12-31 17:19:54 Java开发

多次使用准备好的语句,警告 Cassandra 查询降低性能

我每天从某处获取数据并将其插入到 cassandra 中然后我需要从 cassandra 检索整周的数据并进行一些处理并将结果插入回 cassandra. 我有很多记录,每条记录执行以下大部分操作. 为此,我编写了一个程序,其工作正常,但我收到警告,并且根据 API 文档不应多次使用 prepare 语句其降低性能. 请告诉我如何避免这种情况以提高性能或建议我在 Scala 中实 ..

如何在 Scala 中使用 spark cassandra 连接器 API

我之前的帖子:修复准备好的 stmt 警告. 我无法解决它,建议很少,我尝试使用 spark cassandra 连接器来解决我的问题.但我对它在我的应用程序中的使用感到完全困惑.我尝试编写如下代码,但不确定如何使用 API. val conf = new SparkConf(true).set("spark.cassandra.connection.host", "1.1.1.1").s ..

Apache Spark 无法处理大型 Cassandra 列族

我正在尝试使用 Apache Spark 来处理我的大型(约 230k 个条目)cassandra 数据集,但我经常遇到不同类型的错误.但是,在数据集约 200 个条目上运行时,我可以成功运行应用程序.我有 3 个节点的 spark 设置,其中包含 1 个主节点和 2 个工作线程,并且这 2 个工作节点还安装了一个 cassandra 集群,其中数据索引的复制因子为 2.我的 2 个 spark ..

如何检索输出大小和从 Spark UI 写入的记录等指标?

如何在任务或作业完成后立即在控制台(Spark Shell 或 Spark 提交作业)上收集这些指标. 我们使用 Spark 将数据从 Mysql 加载到 Cassandra,它非常庞大(例如:~200 GB 和 600M 行).当任务完成后,我们要验证spark过程到底做了多少行?我们可以从 Spark UI 获取数字,但是我们如何从 spark shell 或 spark-submit ..

用于更改源的 Spark Dataframe.cache() 行为

我的用例: 从 cassandra 表创建数据框. 通过过滤列并修改该列的值来创建输出数据框. 使用 TTL 集将输出数据帧写入 cassandra,以便在短时间内(2 秒)后删除所有修改过的记录 将输出数据帧返回给调用者,调用者在一段时间后将其写入文件系统.我只能向调用者返回一个数据帧,我没有进一步的控制权.此外,我无法增加 TTL. 到时候,第 4 步执行完毕,输出的数据帧为 ..