apache-spark-1.3相关内容

Spark SQL + Window + Streaming 问题 - 使用 Spark 流运行时,Spark SQL 查询需要很长时间才能执行

我们期待使用 Spark Streaming(带水槽)和带窗口的 Spark SQL 实现一个用例,允许我们对一组数据执行 CEP 计算.(有关如何捕获和使用数据,请参见下文).这个想法是使用 SQL 来执行一些匹配特定条件的操作..根据每个传入的事件批次执行查询似乎很慢(随着它的进行). 这里的慢意味着说我配置了 600 秒的窗口大小和 20 秒的批处理间隔.(以每 2 秒 1 个输入的速 ..

将 ArrayBuffer 转换为 DataFrame 中的 HashSet 到 Hive 表中的 RDD 时的 GenericRowWithSchema 异常

我有一个镶木地板格式的 Hive 表,它是使用 生成的 create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array) 存储为镶木地板; 我能够验证它是否已填充——这是一个示例值 [1, “abcdef", 2, “ghijkl", ArrayBuffer([1, “hello"])] 我希望 ..

Spark SQL +窗口+流式传输问题-在运行Spark流式传输时,Spark SQL查询执行时间较长

我们期待使用Spark Streaming(带有水槽)和带有窗口的Spark SQL来实现用例,从而使我们能够对一组数据执行CEP计算(有关如何捕获和使用数据的信息,请参见下文).这个想法是使用SQL来执行一些符合某些条件的动作..基于每个传入事件批处理执行查询似乎非常慢(随着过程的进行). 这里的意思是说我已配置了600秒的窗口大小和20秒的批处理间隔.(以每2秒1个输入的速度抽取数据), ..

如何在SparkSQL中使用Dataframe获取行的迭代器

我在SparkSQL中有一个应用程序,该应用程序返回很难容纳在内存中的大量行,因此我将无法在DataFrame上使用collect函数,有没有一种方法可以将所有这些行作为整个行的迭代设置为列表. 注意:我正在使用yarn-client执行此SparkSQL应用程序 解决方案 通常来说,将所有数据传输到驱动程序似乎是个坏主意,大多数情况下都有更好的解决方案,但是如果您真的想去的话这样, ..
发布时间:2020-09-04 02:17:49 其他开发

在Spark作业完成且上下文已关闭后,如何查看其日志?

我正在运行pyspark,spark 1.3,standalone mode,client mode. 我试图通过查看过去的工作并进行比较来调查我的火花工作.我想查看他们的日志,提交作业的配置设置,等等.但是在上下文关闭后,我在查看作业日志时遇到了麻烦. 当我提交工作时,我当然会打开一个火花上下文.在作业运行期间,我可以使用ssh隧道打开 spark web UI .而且,我可以通过l ..
发布时间:2020-07-12 03:46:04 其他开发

星火SQL +窗口+ Streming问题 - 星火SQL查询正在长期执行火花流运行时,

我们期待实现使用星火流(带水槽)一个用例和Spark与窗口,使我们能够在一组数据进行CEP计算SQL。(为请参照下面的数据捕获和使用)。我们的想法是使用SQL执行其中一些符合某些条件下采取行动。 。执行基于每个传入事件批处理查询似乎非常慢(如它的进展)。 下面慢手段说我已经配置了600秒的窗口大小和20秒的间隔批。 (抽带每两每秒1输入速度的数据),因此,在10分钟后的时间在那里进来的投入将不断 ..