spark-structured-streaming相关内容
Spark 2.2 引入了 Kafka 的结构化流媒体源.据我了解,它依赖于 HDFS 检查点目录来存储偏移量并保证“恰好一次"消息传递. 但是旧码头(例如 https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/) 说 Spark Stream
..
我使用 HDP-2.6.3.0 和 Spark2 包 2.2.0. 我正在尝试使用 Structured Streaming API 编写 Kafka 使用者,但在将作业提交到集群后出现以下错误: 线程“main"中的异常java.lang.ClassNotFoundException:无法找到数据源:kafka.请在 http://spark.apache.org/third-party
..
我正在尝试使用 结构化流媒体方法使用基于DataFrame/Dataset API的Spark-Streaming从Kafka加载数据流. 我使用: Spark 2.10 卡夫卡 0.10 spark-sql-kafka-0-10 Spark Kafka DataSource 已经定义了底层架构: |key|value|topic|partition|offset|time
..
我的时间戳为 UTC 和 ISO8601,但使用结构化流,它会自动转换为本地时间.有没有办法阻止这种转换?我想在 UTC 中使用它. 我正在从 Kafka 读取 json 数据,然后使用 from_json Spark 函数解析它们. 输入: {"Timestamp":"2015-01-01T00:00:06.222Z"} 流程: SparkSession.builder().m
..
我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay
..
一直在尝试习惯新的结构化流媒体,但是一旦我开始一个 .writeStream 查询,它就会不断给我以下错误. 知道是什么原因造成的吗?如果您在本地和 HDFS 之间拆分检查点和元数据文件夹,我能找到的最接近的是一个持续的 Spark 错误,但是.在 Windows 10、Spark 2.2 和 IntelliJ 上运行. 17/08/29 21:47:39 错误 StreamMetadat
..
我使用 HDP-2.6.3.0 和 Spark2 包 2.2.0. 我正在尝试使用 Structured Streaming API 编写 Kafka 使用者,但在将作业提交到集群后出现以下错误: 线程“main"中的异常java.lang.ClassNotFoundException:无法找到数据源:kafka.请在 http://spark.apache.org/third-party
..
我正在向连接到安全 hbase 集群的 YARN(在 spark 2.1.1 + kafka 0.10.2.1 上)提交作业.当我在“本地"模式(spark.master=local[*])下运行时,这项工作执行得很好. 但是,一旦我以 YARN(并将部署模式作为客户端)提交作业,我就会看到以下错误消息 - Caused by: javax.security.auth.login.Logi
..
我正在阅读 Spark 结构化流媒体 - Kafka 集成指南 此处. 在这个链接中被告知 enable.auto.commit:Kafka 源不提交任何偏移量. 那么,一旦我的 Spark 应用程序成功处理了每条记录,我该如何手动提交偏移量? 解决方案 tl;dr 无法向 Kafka 提交任何消息.从 Spark 3.x 版本开始,您可以定义 Kafka 消费者组
..
我正在尝试使用 结构化流方法使用基于DataFrame/Dataset API的Spark-Streaming从Kafka加载数据流. 我使用: Spark 2.10 卡夫卡 0.10 spark-sql-kafka-0-10 Spark Kafka DataSource 已经定义了底层架构: |key|value|topic|partition|offset|timest
..
我的时间戳为 UTC 和 ISO8601,但使用结构化流,它会自动转换为本地时间.有没有办法阻止这种转换?我想在 UTC 中使用它. 我正在从 Kafka 读取 json 数据,然后使用 from_json Spark 函数解析它们. 输入: {"Timestamp":"2015-01-01T00:00:06.222Z"} 流程: SparkSession.builder().m
..
我在 Spark Structured Streaming 中使用 Kafka Source 来接收 Confluent 编码的 Avro 记录.我打算使用 Confluent Schema Registry,但是与 Spark 结构化流的集成似乎是不可能的. 我见过这个问题,但无法在 Confluent Schema Registry 中使用.使用 Spark 2.0 从 Kafka 读取
..
我使用的是 kafka connect cassandra 源连接器 1.0 版本.我在 cassandra 表中有一个十进制数据类型列(价格),并将其作为来自源连接器的 json 写入 kafka 主题,它以某种字符串格式写入十进制值,例如 "price":"AA==".现在它在我的火花流中出错,同时将浮点数转换为“数字格式异常"....??请建议在 kafka 主题中写入值时可能出现的问题.提
..
我试图从 [Databricks][1] 复制示例并将其应用到 Kafka 的新连接器并激发结构化流,但是我无法使用 Spark 中的开箱即用方法正确解析 JSON... 注意:主题以JSON格式写入Kafka. val ds1 = spark.readStream.format("卡夫卡").option("kafka.bootstrap.servers", IP + ":9092").
..
我正在测试 spark 结构化流使用 kafka.i 在 host28 上有一个 kafka-broker(0.10.1),默认分区 num:num.partitions=1 我的制作人: bin/kafka-console-producer.sh --broker-list host28:6667 --topic 测试 当我使用 bin/kafka-console-consumer.
..
我正在运行 Kafka、Spark 和 Cassandra 的 1 节点集群.所有本地都在同一台机器上. 从一个简单的 Python 脚本中,我每 5 秒将一些虚拟数据流式传输到 Kafka 主题中.然后使用 Spark 结构化流,我将此数据流(一次一行)读入 PySpark DataFrame 中,startingOffset = latest.最后,我尝试将此行附加到现有的 Cassan
..
我使用 spark(3.0.0) 结构化流从 kafka 读取主题. 我使用了 joins 然后使用了 mapGropusWithState 来获取我的流数据,所以我必须使用 update 模式,基于我对 spark 官方指南的理解:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
..
我正在尝试使用 Spark Structure Streaming 和 Foreach Sink 将反序列化的 Kafka 记录插入到 Data Stax Cassandra. 例如,我的反序列化数据框数据和所有数据一样都是字符串格式. id 名称 日期100 'test' 系统日期 使用 foreach Sink 我创建了一个类并尝试通过转换来插入如下记录. session.exec
..
对于以下写主题/读主题air2008rand串联: import org.apache.spark.sql.streaming.Trigger(spark.readStream.format("卡夫卡").option("kafka.bootstrap.servers", "localhost:9092").option("startingOffsets", "最早").option("订阅",
..
我正在使用 Spark 2.0.2 的全新(并标记为“alpha")结构化流来读取来自 kafka 主题的消息并从中更新几个 cassandra 表: val readStream = sparkSession.readStream.format("卡夫卡").option(“订阅",“麦克斯韦").option("kafka.bootstrap.servers", "localhost:909
..