spark-cassandra-connector相关内容
创建表格- CREATE TABLE test.word_groups (group text, word text, count int,PRIMARY KEY (group,word)); 插入数据- INSERT INTO test.word_groups (group , word , count ) VALUES ( 'A-group', 'raj', 0) ; INSE
..
build.sbt: val sparkVersion = "2.1.1";libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided";libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % "
..
..
我正在运行时从文件中读取查询并在 SPark+Cassandra 环境中执行它. 我正在执行: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = true") 在文件中查询: 选择 col1、co
..
我是 Spark 和 Cassandra 的新手.在尝试提交 Spark 作业时,我在连接到 Cassandra 时遇到错误. 详情: 版本: Spark : 1.3.1(为 hadoop 2.6 或更高版本构建:spark-1.3.1-bin-hadoop2.6)卡桑德拉:2.0Spark-Cassandra-连接器:1.3.0-M1标度:2.10.5 Spark 和 Cassa
..
我使用的是 Spark Cassandra 连接器.从 Cassandra 表中获取数据需要 5-6 分钟.在 Spark 中,我在日志中看到了许多任务和 Executor.原因可能是 Spark 把流程分成了很多任务! 下面是我的代码示例: public static void main(String[] args) {SparkConf conf = new SparkConf(tru
..
我每天从某处获取数据并将其插入到 cassandra 中然后我需要从 cassandra 检索整周的数据并进行一些处理并将结果插入回 cassandra. 我有很多记录,每条记录执行以下大部分操作. 为此,我编写了一个程序,其工作正常,但我收到警告,并且根据 API 文档不应多次使用 prepare 语句其降低性能. 请告诉我如何避免这种情况以提高性能或建议我在 Scala 中实
..
我正在使用 maven shade 插件来构建 Uber jar,以便将其作为作业提交给 google dataproc 集群.Google 已在其集群上安装了 Apache Spark 2.0.2 Apache Hadoop 2.7.3. Apache spark 2.0.2 使用 com.google.guava 的 14.0.1 和 apache hadoop 2.7.3 使用 11.
..
我之前的帖子:修复准备好的 stmt 警告. 我无法解决它,建议很少,我尝试使用 spark cassandra 连接器来解决我的问题.但我对它在我的应用程序中的使用感到完全困惑.我尝试编写如下代码,但不确定如何使用 API. val conf = new SparkConf(true).set("spark.cassandra.connection.host", "1.1.1.1").s
..
在 Spark-2.0 中,创建 Spark 会话的最佳方式是什么.因为在 Spark-2.0 和 Cassandra 中,API 都经过了重新设计,基本上弃用了 SqlContext(以及 CassandraSqlContext).因此,为了执行 SQL - 我要么创建一个 Cassandra 会话 (com.datastax.driver.core.Session) 并使用 execute("
..
我正在尝试使用 Apache Spark 来处理我的大型(约 230k 个条目)cassandra 数据集,但我经常遇到不同类型的错误.但是,在数据集约 200 个条目上运行时,我可以成功运行应用程序.我有 3 个节点的 spark 设置,其中包含 1 个主节点和 2 个工作线程,并且这 2 个工作节点还安装了一个 cassandra 集群,其中数据索引的复制因子为 2.我的 2 个 spark
..
如何在任务或作业完成后立即在控制台(Spark Shell 或 Spark 提交作业)上收集这些指标. 我们使用 Spark 将数据从 Mysql 加载到 Cassandra,它非常庞大(例如:~200 GB 和 600M 行).当任务完成后,我们要验证spark过程到底做了多少行?我们可以从 Spark UI 获取数字,但是我们如何从 spark shell 或 spark-submit
..
我的用例: 从 cassandra 表创建数据框. 通过过滤列并修改该列的值来创建输出数据框. 使用 TTL 集将输出数据帧写入 cassandra,以便在短时间内(2 秒)后删除所有修改过的记录 将输出数据帧返回给调用者,调用者在一段时间后将其写入文件系统.我只能向调用者返回一个数据帧,我没有进一步的控制权.此外,我无法增加 TTL. 到时候,第 4 步执行完毕,输出的数据帧为
..
在以前的 Spark 版本(如 1.6.1)中,我正在使用 spark Context 创建 Cassandra Context, import org.apache.spark.{ Logging, SparkContext, SparkConf }//配置val conf: org.apache.spark.SparkConf = new SparkConf(true).set("spark
..
下面是代码块和收到的错误 >创建临时视图sqlcontext.sql("""创建临时视图 temp_pay_txn_stage使用 org.apache.spark.sql.cassandra选项 (表“t_pay_txn_stage",键空间“ks_pay",集群“测试集群",下推“真")""".stripMargin)sqlcontext.sql("""创建临时视图 temp_pay_txn
..
我有以下代码 我调用 spark-shell 如下 ./spark-shell --conf spark.cassandra.connection.host=170.99.99.134 --executor-memory 15G --executor-cores 12 --conf spark.cassandra.input.split.size_in_mb=67108864 代码 s
..
我有一个 Cassandra 表,为了简单起见,它看起来像: 键:文本jsonData:文本斑点数据:斑点 我可以使用 spark 和 spark-cassandra-connector 为此创建一个基本数据框: val df = sqlContext.read.format("org.apache.spark.sql.cassandra").options(Map("table" -> "
..
我总是收到以下错误.有人可以帮我吗? 线程“main"中的异常 java.lang.NoClassDefFoundError: org/apache/spark/Logging在 java.lang.ClassLoader.defineClass1(Native Method)在 java.lang.ClassLoader.defineClass(ClassLoader.java:763)在 j
..
我有一个 Cassandra 表,为了简单起见,它看起来像: 键:文本jsonData:文本斑点数据:斑点 我可以使用 spark 和 spark-cassandra-connector 为此创建一个基本数据框: val df = sqlContext.read.format("org.apache.spark.sql.cassandra").options(Map("table" -> "
..
Spark 版本:1.4.1 Cassandra 版本:2.1.8 Datastax Cassandra 连接器:1.4.2-SNAPSHOT.jar 我运行的命令 ./spark-submit --jars/usr/local/src/spark-cassandra-connector/spark-cassandra-connector-java/target/scala
..