spark-cassandra-connector - IT屋-程序员软件开发技术分享社区

Spark Scala Cassandra连接器删除所有行失败，出现IllegalArgumentException要求失败异常

创建表格- CREATE TABLE test.word_groups (group text, word text, count int,PRIMARY KEY (group,word)); 插入数据- INSERT INTO test.word_groups (group , word , count ) VALUES ( 'A-group', 'raj', 0) ; INSE ..

发布时间：2022-04-13 19:58:15 dataframe apache-spark cassandra rdd spark-cassandra-connector 其他开发

spark-cassandra-connector 2.0.2 的 sbt 未解决依赖关系

build.sbt: val sparkVersion = "2.1.1";libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided";libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % " ..

发布时间：2022-01-24 22:25:42 scala apache-spark sbt spark-cassandra-connector 其他开发

来自带有组装罐子的 spark-cassandra-connector 的 NoSuchMethodError

..

发布时间：2022-01-24 21:48:05 scala apache-spark sbt spark-cassandra-connector 其他开发

将 columnNames 动态传递给 cassandraTable().select()

我正在运行时从文件中读取查询并在 SPark+Cassandra 环境中执行它. 我正在执行: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = true") 在文件中查询: 选择 col1、co ..

发布时间：2021-12-31 17:59:33 scala apache-spark cassandra spark-cassandra-connector 其他开发

Spark-Cassandra 连接器:无法打开与 Cassandra 的本机连接

我是 Spark 和 Cassandra 的新手.在尝试提交 Spark 作业时，我在连接到 Cassandra 时遇到错误. 详情: 版本: Spark : 1.3.1(为 hadoop 2.6 或更高版本构建:spark-1.3.1-bin-hadoop2.6)卡桑德拉:2.0Spark-Cassandra-连接器:1.3.0-M1标度:2.10.5 Spark 和 Cassa ..

发布时间：2021-12-31 17:29:55 cassandra apache-spark database-connection spark-cassandra-connector 其他开发

Apache Spark 需要 5 到 6 分钟来简单计算来自 Cassandra 的 10 亿行

我使用的是 Spark Cassandra 连接器.从 Cassandra 表中获取数据需要 5-6 分钟.在 Spark 中，我在日志中看到了许多任务和 Executor.原因可能是 Spark 把流程分成了很多任务！下面是我的代码示例: public static void main(String[] args) {SparkConf conf = new SparkConf(tru ..

发布时间：2021-12-31 17:19:54 java cassandra apache-spark spark-cassandra-connector Java开发

多次使用准备好的语句，警告 Cassandra 查询降低性能

我每天从某处获取数据并将其插入到 cassandra 中然后我需要从 cassandra 检索整周的数据并进行一些处理并将结果插入回 cassandra. 我有很多记录，每条记录执行以下大部分操作. 为此，我编写了一个程序，其工作正常，但我收到警告，并且根据 API 文档不应多次使用 prepare 语句其降低性能. 请告诉我如何避免这种情况以提高性能或建议我在 Scala 中实 ..

发布时间：2021-12-31 17:15:19 scala apache-spark cassandra cassandra-3.0 spark-cassandra-connector 其他开发

向 Google Dataproc 提交 Uber Jar 时如何解决 Guava 依赖问题

我正在使用 maven shade 插件来构建 Uber jar，以便将其作为作业提交给 google dataproc 集群.Google 已在其集群上安装了 Apache Spark 2.0.2 Apache Hadoop 2.7.3. Apache spark 2.0.2 使用 com.google.guava 的 14.0.1 和 apache hadoop 2.7.3 使用 11. ..

发布时间：2021-12-15 19:00:59 hadoop apache-spark spark-cassandra-connector google-cloud-dataproc 其他开发

如何在 Scala 中使用 spark cassandra 连接器 API

我之前的帖子:修复准备好的 stmt 警告. 我无法解决它，建议很少，我尝试使用 spark cassandra 连接器来解决我的问题.但我对它在我的应用程序中的使用感到完全困惑.我尝试编写如下代码，但不确定如何使用 API. val conf = new SparkConf(true).set("spark.cassandra.connection.host", "1.1.1.1").s ..

发布时间：2021-11-14 23:28:05 apache-spark cassandra apache-spark-sql spark-cassandra-connector 其他开发

用于 Cassandra 的 Spark2 会话，sql 查询

在 Spark-2.0 中，创建 Spark 会话的最佳方式是什么.因为在 Spark-2.0 和 Cassandra 中，API 都经过了重新设计，基本上弃用了 SqlContext(以及 CassandraSqlContext).因此，为了执行 SQL - 我要么创建一个 Cassandra 会话 (com.datastax.driver.core.Session) 并使用 execute(" ..

发布时间：2021-11-14 22:47:44 java apache-spark apache-spark-sql spark-cassandra-connector apache-spark-2.0 Java开发

Apache Spark 无法处理大型 Cassandra 列族

我正在尝试使用 Apache Spark 来处理我的大型(约 230k 个条目)cassandra 数据集，但我经常遇到不同类型的错误.但是，在数据集约 200 个条目上运行时，我可以成功运行应用程序.我有 3 个节点的 spark 设置，其中包含 1 个主节点和 2 个工作线程，并且这 2 个工作节点还安装了一个 cassandra 集群，其中数据索引的复制因子为 2.我的 2 个 spark ..

发布时间：2021-11-14 22:42:30 java cassandra apache-spark apache-spark-sql spark-cassandra-connector Java开发

如何检索输出大小和从 Spark UI 写入的记录等指标?

如何在任务或作业完成后立即在控制台(Spark Shell 或 Spark 提交作业)上收集这些指标. 我们使用 Spark 将数据从 Mysql 加载到 Cassandra，它非常庞大(例如:~200 GB 和 600M 行).当任务完成后，我们要验证spark过程到底做了多少行?我们可以从 Spark UI 获取数字，但是我们如何从 spark shell 或 spark-submit ..

发布时间：2021-11-14 22:38:10 apache-spark apache-spark-sql spark-dataframe spark-cassandra-connector codahale-metrics 其他开发

用于更改源的 Spark Dataframe.cache() 行为

我的用例: 从 cassandra 表创建数据框. 通过过滤列并修改该列的值来创建输出数据框. 使用 TTL 集将输出数据帧写入 cassandra，以便在短时间内(2 秒)后删除所有修改过的记录将输出数据帧返回给调用者，调用者在一段时间后将其写入文件系统.我只能向调用者返回一个数据帧，我没有进一步的控制权.此外，我无法增加 TTL. 到时候，第 4 步执行完毕，输出的数据帧为 ..

发布时间：2021-11-14 22:27:57 apache-spark dataframe apache-spark-sql spark-cassandra-connector 其他开发

如何在 spark 2.0 中使用 Cassandra Context

在以前的 Spark 版本(如 1.6.1)中，我正在使用 spark Context 创建 Cassandra Context， import org.apache.spark.{ Logging, SparkContext, SparkConf }//配置val conf: org.apache.spark.SparkConf = new SparkConf(true).set("spark ..

发布时间：2021-11-14 22:12:20 apache-spark cassandra apache-spark-sql spark-cassandra-connector 其他开发

无法在 Spark SQL 中生成 UUID

下面是代码块和收到的错误 >创建临时视图sqlcontext.sql("""创建临时视图 temp_pay_txn_stage使用 org.apache.spark.sql.cassandra选项 (表“t_pay_txn_stage"，键空间“ks_pay"，集群“测试集群"，下推“真")""".stripMargin)sqlcontext.sql("""创建临时视图 temp_pay_txn ..

发布时间：2021-11-14 22:12:01 apache-spark cassandra apache-spark-sql spark-cassandra-connector 其他开发

Apache Spark SQL 需要永远计算来自 Cassandra 的十亿行?

我有以下代码我调用 spark-shell 如下 ./spark-shell --conf spark.cassandra.connection.host=170.99.99.134 --executor-memory 15G --executor-cores 12 --conf spark.cassandra.input.split.size_in_mb=67108864 代码 s ..

发布时间：2021-11-14 22:11:52 apache-spark apache-spark-sql spark-cassandra-connector 其他开发

如何使用 Spark DataFrames 查询 JSON 数据列?

我有一个 Cassandra 表，为了简单起见，它看起来像: 键:文本jsonData:文本斑点数据:斑点我可以使用 spark 和 spark-cassandra-connector 为此创建一个基本数据框: val df = sqlContext.read.format("org.apache.spark.sql.cassandra").options(Map("table" -> " ..

发布时间：2021-11-14 21:13:26 scala apache-spark dataframe apache-spark-sql spark-cassandra-connector 其他开发

java.lang.NoClassDefFoundError: org/apache/spark/Logging

我总是收到以下错误.有人可以帮我吗? 线程“main"中的异常 java.lang.NoClassDefFoundError: org/apache/spark/Logging在 java.lang.ClassLoader.defineClass1(Native Method)在 java.lang.ClassLoader.defineClass(ClassLoader.java:763)在 j ..

发布时间：2021-11-12 05:30:04 java maven apache-spark cassandra spark-cassandra-connector Java开发

如何使用 Spark DataFrames 查询 JSON 数据列?

我有一个 Cassandra 表，为了简单起见，它看起来像: 键:文本jsonData:文本斑点数据:斑点我可以使用 spark 和 spark-cassandra-connector 为此创建一个基本数据框: val df = sqlContext.read.format("org.apache.spark.sql.cassandra").options(Map("table" -> " ..

发布时间：2021-11-12 05:22:54 scala apache-spark dataframe apache-spark-sql spark-cassandra-connector 其他开发

为什么 spark-submit 失败并显示“无法加载数据源的类:org.apache.spark.sql.cassandra"?在 --jars 中使用 Cassandra 连接器?

Spark 版本:1.4.1 Cassandra 版本:2.1.8 Datastax Cassandra 连接器:1.4.2-SNAPSHOT.jar 我运行的命令 ./spark-submit --jars/usr/local/src/spark-cassandra-connector/spark-cassandra-connector-java/target/scala ..

发布时间：2021-11-12 03:22:48 apache-spark apache-kafka cassandra-2.0 spark-cassandra-connector 其他开发

spark-cassandra-connector相关内容