apache-spark相关内容

电光独立版:传输请求处理程序:调用RpcHandler时出错-在不同计算机/VM上启动工作程序时

我在这方面完全是新手,如果有明显的错误,请原谅。 精确错误: 《在奴隶》: Info TransportClientFactory:69毫秒后成功创建到/10.2.10.128:7077的连接(0毫秒用于引导) 警告工作进程:无法连接到主10.2.10.128:7077 在Master: 资讯大师:我被选为领袖!新状态:活着 错误TransportRequestHandler:在RPC ..
发布时间:2022-03-29 20:34:34 其他开发

SparkConext.text文件可以与自定义接收器一起使用吗?

我正在尝试实现一个使用自定义接收器从SQS读取消息的流作业。每封邮件都包含对S3文件的单个引用,然后我希望读取、解析该文件并将其存储为ORC。 以下是我到目前为止拥有的代码: val sc = new SparkContext(conf) val streamContext = new StreamingContext(sc, Seconds(5)) val sqs = stream ..
发布时间:2022-03-29 20:29:21 其他开发

如何使用mapWithState提取超时会话

我正在更新代码,以便从updateStateByKey切换到mapWithState,以便基于2分钟的超时获得用户会话(2分钟仅用于测试目的)。每个会话应在超时之前聚合会话内的所有流数据(JSON字符串)。 这是我的旧代码: val membersSessions = stream.map[(String, (Long, Long, List[String]))](eventRecor ..
发布时间:2022-03-29 20:23:25 其他开发

Spark Streaming中如何处理旧数据和删除已处理的数据

我们正在运行一个Spark Stream作业,该作业从一个目录(使用TextFileStream)检索文件。 我们关注的一个问题是,作业已关闭,但文件仍在添加到目录中。 一旦作业重新启动,这些文件就不会被拾取(因为它们不是新的或在作业运行时更改),但我们希望处理它们。 1)有解决方案吗?有没有办法跟踪已处理的文件,以及是否可以“强制”拾取较旧的文件? 2)是否有方法删除已处理的文件? ..
发布时间:2022-03-29 20:05:01 其他开发

电光结构化流媒体:处理负载是否影响输入率/数字输入记录?

我当前的结构化流应用程序写入一个巨大的Delta表。当我(停止流)并将其指向写入全新的增量表时: 它变得更快-批量持续时间减少了近四分之一 投入率几乎提高了3倍 我知道它可能会变得更快,因为它在旧的/更大的表上执行的任何聚合/写入在新表上都不需要。但投入率的变化我希望有人能解释一下? 源为Azure EventHubs。 谢谢! 推荐答案 回答我自己的问题: ..

有什么办法可以扁平化电光流媒体中的嵌套JSON吗?

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据,运行正常,但当我尝试在火花流作业中使用相同的代码片段时,它抛出以下错误 必须使用WriteStream.start(); 执行具有流来源的查询 那么,有什么方法可以在流作业中展平嵌套的JSON吗? 样本输入嵌套JSON- { "name":" Akash", "age":26, "watches":{ ..
发布时间:2022-03-29 19:55:13 Java开发

为什么我的火花流工作有这么多任务

我想知道为什么我的火花流工作中有这么多任务编号?它变得越来越大... 运行3.2h后,增长到120020。运行一天后,它将增长到100万...为什么? 推荐答案 此SparkUI功能意味着某些阶段依赖项可能已计算过,也可能没有计算过,但由于其输出已可用而被跳过。因此,它们表现为skipped。 请不要使用might,这意味着在作业完成Spark之前,无法确定是否需要返回并重新计 ..
发布时间:2022-03-29 19:35:24 其他开发

如何在使用Scala读取HDFS目录后删除该目录中的文件?

我使用fileStream从Spark(流上下文)读取HDFS目录中的文件。如果我的Spark在一段时间后关闭并启动,我希望读取目录中的新文件。我不想读取Spark已经读取和处理过的目录中的旧文件。我在此尽量避免重复。 val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/File") 是否有需要帮助 ..
发布时间:2022-03-29 19:33:04 其他开发

Spark文件流问题

我正在尝试使用SparkStreaming(Spark-Streaming_2.10,版本:1.5.1)的简单文件流传输示例 public class DStreamExample { public static void main(final String[] args) { final SparkConf sparkConf = new SparkConf() ..
发布时间:2022-03-29 19:23:30 其他开发

数据库作业超时,出现错误:[IP]上的Executor 0丢失。取消关联的远程RPC客户端

完全错误:Databricks作业超时,错误:[IP]上的Executor 0丢失。远程RPC客户端已解除关联。可能是由于容器超过阈值或网络问题。检查驱动程序日志中的警告消息。 我们正在Azure Databricks订阅上使用Job API 2.0运行作业,并使用Pools接口来缩短派生时间,并使用Worker/Driver作为Standard_DS12_v2。 我们有一个作业(JAR ..

如何在苹果电脑上安装带有自制软件的阿帕奇-电光2.2.0

“$BREW安装阿帕奇-电光‘ 给我2.3.x版。 ‘$BREW搜索阿帕奇-电光’ 和 ‘$BREW信息阿帕奇-电光’ 不提供安装不同版本的选项。 是否可以使用自制软件获得不同的版本? 推荐答案 运行这些命令(假设您已经通过Homebrew安装了apache-电光) cd "$(brew --repo homebrew/core)" git log Formula/apache- ..
发布时间:2022-03-14 16:24:52 其他开发