apache-spark-1.3 - IT屋-程序员软件开发技术分享社区

Spark SQL + Window + Streaming 问题 - 使用 Spark 流运行时，Spark SQL 查询需要很长时间才能执行

我们期待使用 Spark Streaming(带水槽)和带窗口的 Spark SQL 实现一个用例，允许我们对一组数据执行 CEP 计算.(有关如何捕获和使用数据，请参见下文).这个想法是使用 SQL 来执行一些匹配特定条件的操作..根据每个传入的事件批次执行查询似乎很慢(随着它的进行). 这里的慢意味着说我配置了 600 秒的窗口大小和 20 秒的批处理间隔.(以每 2 秒 1 个输入的速 ..

发布时间：2021-11-14 22:32:38 apache-spark apache-spark-sql spark-streaming apache-spark-1.3 其他开发

将 ArrayBuffer 转换为 DataFrame 中的 HashSet 到 Hive 表中的 RDD 时的 GenericRowWithSchema 异常

我有一个镶木地板格式的 Hive 表，它是使用生成的 create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array) 存储为镶木地板；我能够验证它是否已填充——这是一个示例值 [1, “abcdef", 2, “ghijkl", ArrayBuffer([1, “hello"])] 我希望 ..

发布时间：2021-11-14 22:08:26 scala apache-spark hive apache-spark-sql apache-spark-1.3 其他开发

Spark SQL +窗口+流式传输问题-在运行Spark流式传输时，Spark SQL查询执行时间较长

我们期待使用Spark Streaming(带有水槽)和带有窗口的Spark SQL来实现用例，从而使我们能够对一组数据执行CEP计算(有关如何捕获和使用数据的信息，请参见下文).这个想法是使用SQL来执行一些符合某些条件的动作..基于每个传入事件批处理执行查询似乎非常慢(随着过程的进行). 这里的意思是说我已配置了600秒的窗口大小和20秒的批处理间隔.(以每2秒1个输入的速度抽取数据)， ..

发布时间：2021-04-08 19:36:23 apache-spark apache-spark-sql spark-streaming apache-spark-1.3 其他开发

如何在SparkSQL中使用Dataframe获取行的迭代器

我在SparkSQL中有一个应用程序，该应用程序返回很难容纳在内存中的大量行，因此我将无法在DataFrame上使用collect函数，有没有一种方法可以将所有这些行作为整个行的迭代设置为列表. 注意:我正在使用yarn-client执行此SparkSQL应用程序解决方案通常来说，将所有数据传输到驱动程序似乎是个坏主意，大多数情况下都有更好的解决方案，但是如果您真的想去的话这样， ..

发布时间：2020-09-04 02:17:49 apache-spark apache-spark-sql apache-spark-1.3 其他开发

在Spark作业完成且上下文已关闭后，如何查看其日志?

我正在运行pyspark，spark 1.3，standalone mode，client mode. 我试图通过查看过去的工作并进行比较来调查我的火花工作.我想查看他们的日志，提交作业的配置设置，等等.但是在上下文关闭后，我在查看作业日志时遇到了麻烦. 当我提交工作时，我当然会打开一个火花上下文.在作业运行期间，我可以使用ssh隧道打开 spark web UI .而且，我可以通过l ..

发布时间：2020-07-12 03:46:04 apache-spark ssh pyspark tunneling apache-spark-1.3 其他开发

将ArrayFuffer中的GenericRowWithSchema异常转换为DataFrame中的HashSet与Hive表中的RDD

我使用 create table myTable（var1 int，var2 string，var3 int，var4 string，var5 array>）存储为实木复合地板; 我可以验证它是否已填充 - 此处为样本值 [1，“abcdef”，2，“ghijkl”，ArrayBuffer（[1，“hello”] ..

发布时间：2018-06-12 14:05:02 scala apache-spark hive apache-spark-sql apache-spark-1.3 其他开发

星火SQL +窗口+ Streming问题 - 星火SQL查询正在长期执行火花流运行时，

我们期待实现使用星火流（带水槽）一个用例和Spark与窗口，使我们能够在一组数据进行CEP计算SQL。（为请参照下面的数据捕获和使用）。我们的想法是使用SQL执行其中一些符合某些条件下采取行动。。执行基于每个传入事件批处理查询似乎非常慢（如它的进展）。下面慢手段说我已经配置了600秒的窗口大小和20秒的间隔批。（抽带每两每秒1输入速度的数据），因此，在10分钟后的时间在那里进来的投入将不断 ..

发布时间：2016-05-22 16:04:44 apache-spark apache-spark-sql spark-streaming apache-spark-1.3 其他开发

apache-spark-1.3相关内容