apache-spark相关内容

为什么当我发送两个输入流时,Spark Streaming停止工作?

我正在开发一个Spark流应用程序,其中我需要使用来自两个服务器的输入流,每个服务器每秒向Spark上下文发送一条JSON消息。 我的问题是,如果我只在一个流上执行操作,一切都运行得很好。但如果我有来自不同服务器的两个流,那么Spark在可以打印任何东西之前冻结,并且只有在两个服务器都发送了它们必须发送的所有JSON消息时(当它检测到socketTextStream没有接收数据时)才开始重新 ..
发布时间:2022-07-03 18:45:03 Java开发

ApacheSpark中的高效字符串匹配

我使用OCR工具从截图中提取文本(每个截图大约1-5句)。但是,在手动验证提取的文本时,我注意到不时会出现几个错误。 考虑到文字“你好星火!我真的很喜欢😊❤️!”,我注意到: 1)字母“i”、“!”和“l”被替换为“|”。 2)表情符号未正确提取并被其他字符替换或被省略。 3)不时删除空格。 结果,我可能会得到这样的字符串:“Hello here 7l|Real|y ..
发布时间:2022-06-21 13:23:33 Python

运行Spark作业时CPU使用率较低

我正在运行Spark作业。我有4个内核和设置为5G的工作内存。应用程序主机位于同一网络中的另一台计算机上,不承载任何工作进程。这是我的代码: private void myClass() { // configuration of the spark context SparkConf conf = new SparkConf().setAppName("myWork").s ..
发布时间:2022-06-16 14:15:18 Java开发

更改SPARK_TEMPORY目录路径

是否可以更改Spark在写入前保存其临时文件的_temporary目录? 具体地说,因为我正在写入表的单个分区,所以我希望临时文件夹位于分区文件夹中。 可能吗? 文件输出委员会无法使用默认的${mapred.output.dir}/_temporary 由于其实现方式,文件输出委员会会创建一个推荐答案子目录来写入文件,并在提交后移到${mapred.output.dir}。 ..
发布时间:2022-06-10 20:49:29 其他开发

EMR-5.32.0上的Spark未生成请求的执行器

我在EMR(版本5.32.0)上的(Py)Spark中遇到了一些问题。大约一年前,我在EMR集群上运行了相同的程序(我认为发行版一定是5.29.0)。然后,我能够使用spark-submit参数正确配置我的PySpark程序。但是,现在我正在运行相同/相似的代码,但是spark-submit参数似乎没有任何效果。 我的集群配置: 主节点:8个VCORE,32 GiB内存,仅EBS存储E ..

Spark Dataframe/Parquet中的Enum等效项

我有一个包含数亿行的表,我希望将其存储在Spark的DataFrame中,并作为拼图文件保存在磁盘上。 我的拼图文件大小现在超过2TB,我希望确保已对其进行优化。 这些列中有很大一部分是字符串值,这可能很长,但也通常只有很少的值。例如,我有一列只有两个不同的值(一个是20个字符,一个是30个字符的字符串),还有一个列的字符串平均有400个字符,但所有条目中只有大约400个不同的值。 ..
发布时间:2022-05-11 21:39:37 其他开发

Spark:哪些选项可以与DataFrame.saveAsTable或DataFrameWriter.Options一起传递?

开发人员和API文档都没有任何关于DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项的参考,它们会影响配置单元表的保存。 我希望在这个问题的答案中,我们可以汇总一些信息,这些信息将有助于Spark开发人员更好地控制Spark保存表的方式,或许还能为改进Spark的文档提供基础。 推荐答案 您在任何地方都看不到options文 ..
发布时间:2022-05-11 21:18:32 其他开发

使用Spark-avro写入数据帧创建topLevelRecord-要使用现有架构

我正在使用Kryo编码器将GenericRecords编码为Spark DataFrame,并将该数据帧写入Avro文件。一旦我尝试从配置单元中读取文件,我就得到一个错误,说解析器找到的是toplevelRecords而不是预期的字段。这条记录不在我现有的模式中,我认为它是在我使用Spark-Avro编写时创建的。我想知道是否/如何从Avro文件中删除它。 如下所示: { "t ..
发布时间:2022-04-27 19:19:28 Java开发

如何在不对时间戳列使用INT96格式的情况下将Spark数据帧保存到拼图?

我有一个Spark DataFrame,我想将其另存为PARQUE,然后使用PARQUE-Avro库加载它。 我的数据帧中有一个时间戳列,它在拼图中被转换为INT96时间戳列。但是拼花-Avrodoes not support INT96格式化和抛出。 有没有办法避免呢?在Avro支持的内容中将时间戳写入拼图时,是否可以更改Spark使用的格式? 我当前使用 date_fr ..
发布时间:2022-04-27 19:05:29 其他开发

如何在火花纱簇模式下使用--属性-文件选项加载额外的火花属性?

我在纱线集群模式下使用Spark-Submit运行一个Spark作业。为了在运行时提交输入和输出文件路径,我尝试加载一个包含输入和输出路径的属性文件。 属性文件:input.properties spark.myapp.input /input/path spark.myapp.output /output/path 我正在使用以下命令运行我的应用程序。 ..
发布时间:2022-04-15 17:59:54 其他开发