livy - IT屋-程序员软件开发技术分享社区

如何在 EMR 集群 boostrap 上设置 livy.server.session.timeout?

我正在创建一个 EMR 集群，并使用 jupyter notebook 运行一些 spark 任务.我的任务在执行大约 1 小时后死亡，错误是: 遇到错误:来自 https://xxx.xx.x.xxx:18888/sessions/0/statements/20 的无效状态代码“400"，错误负载:“需求失败:会话未激活." 我的理解是它与 Livy 配置 livy.server.sessi ..

发布时间：2021-11-27 10:08:21 configuration amazon-emr livy 其他开发

超时错误:带有 400 状态代码的错误:“要求失败:会话未处于活动状态".

我正在使用 Zeppelin v0.7.3 笔记本来运行 Pyspark 脚本.在一个段落中，我正在运行脚本以将数据从 dataframe 写入 Blob 文件夹中的 parquet 文件.文件按国家/地区进行分区.数据帧的行数为 99,452,829.当脚本到达1小时时，遇到错误—— 400 状态码错误:“要求失败:会话不是活跃. 我的笔记本默认解释器是 jdbc.我已经阅读了 ti ..

发布时间：2021-11-14 23:53:40 python apache-spark apache-zeppelin livy Python

Zeppelin 0.7.2 版本不支持 spark 2.2.0

如何降级spark版本?其他解决方案是什么?我必须使用 spark 会话将我的配置单元表连接到 spark.但是 zeppelin 不支持 spark 版本. 解决方案这里有两个原因. [1] Zeppelin 0.7.2 将 spark 2.2+ 标记为不受支持的版本. https://github.com/apache/zeppelin/blob/v0.7.2/spark ..

发布时间：2021-11-14 23:52:32 apache-spark hive apache-zeppelin livy 其他开发

在通过 apache livy 提交 hudi delta streamer 作业时需要帮助

我对如何将参数作为 REST API JSON 传递有点困惑. 考虑下面的 spark 提交命令. spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_2.11:2.4.4 \--master 纱线 \--deploy-mode 集群\--n ..

发布时间：2021-10-27 18:51:08 apache-spark amazon-emr livy apache-hudi 其他开发

如何在 aws 参数存储中存储/获取 json

我使用 Livy REST API 提交 Spark 应用. {“文件":,“className":“"，“参数":my_args，“conf":my_conf}my_args = [args1, args2, ...]my_conf = {'foo1': 'bar1', 'foo2': 'bar2'...} 我希望 my_conf (json secrets ..

发布时间：2021-06-14 19:06:01 json amazon-web-services parameters store livy 其他开发

通过http运行livy作业，而无需每次都上传jar

我正在玩Livy/Spark，对如何使用其中的一些东西有些困惑.在livy examples文件夹中有一个示例，该示例中的建筑作业已上传到Spark.我喜欢正在使用的接口，但是我想通过http接口到livy/spark，因为我没有Java客户端.这样看来，如果我使用livyclient上传jar，它仅存在于该spark会话中.有没有一种方法可以将livyjobs上传到spark，然后在所有spar ..

发布时间：2021-04-08 20:03:08 java apache-spark livy Java开发

Livy REST Spark java.io.FileNotFoundException:

我是BigData的新用户，我曾尝试用apache Livy来调用spark作业. 与提交命令行工作正常.天生的我有例外命令行: curl -X POST --data'{"file":"/user/romain/spark-examples.jar"，"className":"org.apache.spark.examples.SparkPi"}'-H'内容-类型:applicat ..

发布时间：2020-06-29 20:56:09 apache-spark hadoop pyspark livy 其他开发

如何将Livy curl调用转换为Livy Rest API调用

我开始使用Livy，在我的设置中，Livy服务器在Unix机器上运行，我可以对它进行卷曲并执行作业.我创建了一个胖子罐并将其上传到hdfs，我只是从Livy调用了它的主要方法.我的用于Livy的Json有效负载如下所示: { "file" : "hdfs:///user/data/restcheck/spark_job_2.11-3.0.0-RC1- SNAPSHOT.jar", "prox ..

发布时间：2020-06-29 20:56:06 scala apache-spark livy 其他开发

超时错误:400 StatusCode错误:“请求失败:会话未激活."

我正在使用Zeppelin v0.7.3笔记本运行Pyspark脚本.在一个段落中，我正在运行脚本以将数据从dataframe写入Blob文件夹中的parquet文件.文件按国家/地区分区.数据帧的行数为99,452,829.脚本到达1 hour时，遇到错误- 400 StatusCode错误:“要求失败:会话未完成活跃. 我的笔记本电脑默认解释器是jdbc.我已阅读有关timeou ..

发布时间：2020-06-29 20:56:04 python apache-spark apache-zeppelin livy Python

如何将Spark作业提交给Apache Livy?

我试图了解如何将Spark作业提交给Apache Livy. 我在POM.xml中添加了以下API: com.cloudera.livy livy-api 0.3.0 ..

发布时间：2020-06-29 20:56:02 scala apache-spark livy 其他开发

Apache Livy cURL不适用于spark-submit命令

我最近开始使用Spark Scala，HDFS，sbt和Livy.目前，我尝试创建livy批处理. Warning: Skip remote jar hdfs://localhost:9001/jar/project.jar. java.lang.ClassNotFoundException: SimpleApp at java.net.URLClassLoader.findClass(UR ..

发布时间：2020-06-29 20:55:59 scala apache-spark curl hdfs livy 其他开发

如何使用Apache Livy设置Spark配置属性?

在将Spark作业提交给Apache Livy时，我不知道如何以编程方式传递SparkSession参数: 这是Test Spark作业: class Test extends Job[Int]{ override def call(jc: JobContext): Int = { val spark = jc.sparkSession() // ... ..

发布时间：2020-06-29 20:55:56 scala apache-spark livy 其他开发

如何在EMR群集boostrap上设置livy.server.session.timeout?

我正在创建一个EMR集群，并使用jupyter Notebook运行一些spark任务. 我的任务在执行大约1小时后死亡，错误是: An error was encountered: Invalid status code '400' from https://xxx.xx.x.xxx:18888/sessions/0/statements/20 with error payload: "r ..

发布时间：2020-06-29 20:55:53 configuration amazon-emr livy 其他开发

使用curl在svy上提交spark Jobs

我正在通过Curl提交一次Livy(0.6.0)会话中的Spark作业作业是一个很大的jar文件，完全扩展了Job接口，如下所示: https://stackoverflow.com/a/49220879/8557851 实际上，使用以下curl命令运行此代码时: curl -X POST -d '{"kind": "spark","files":["/config.json" ..

发布时间：2020-06-29 20:55:49 scala apache-spark livy 其他开发

在POST/批次请求中使用现有的SparkSession

我正在尝试使用Livy远程提交几个Spark 职位.可以说我想远程执行 spark-submit任务(使用所有选项) spark-submit \ --class com.company.drivers.JumboBatchPipelineDriver \ --conf spark.driver.cores=1 \ --conf spark.driver.memory=1g \ --conf ..

发布时间：2020-06-29 20:55:46 livy 其他开发

来自..错误有效载荷的无效状态代码"400":“要求失败:会话未激活

我正在运行Pyspark脚本，将数据帧写入jupyter Notebook中的csv，如下所示: df.coalesce(1).write.csv('Data1.csv',header = 'true') 运行一个小时后，出现以下错误. 错误:来自 http://.....session 的无效状态代码无效我的配置就像: spark.conf.set("spark.d ..

发布时间：2020-06-29 20:55:44 apache-spark pyspark livy 其他开发

如何使用AirFlow提取使用Apache Livy批处理POST方法提交的Spark作业客户端日志

我正在使用Apache Livy批处理POST方法提交Spark作业。此HTTP请求是使用AirFlow发送的。提交作业后，我正在使用批处理ID跟踪状态。 Livy /资源管理器。使用Apache Livy REST API可以做到吗？解决方案 Livy有一个端点来获取日志 / sessions / {sessionId} / log & / batches / {bat ..

发布时间：2020-06-02 21:37:06 apache-spark airflow livy 其他开发

通过在Livy上提交批POST方法并跟踪作业来使用Airflow触发作业提交

我想使用Airflow来编排工作，包括运行一些猪脚本，shell脚本和Spark作业。主要用于Spark作业，我想使用Apache Livy但不确定是否使用或运行spark-submit是个好主意。即使我提交了使用Airflow跟踪Spark作业的最佳方法是什么？ > 解决方案我假设您是包含 Java的应用程序 JAR / Scala 您要提交到远程 Spark 集群的代 ..

发布时间：2020-06-02 21:30:29 apache-spark airflow livy 其他开发

Livy Server:以JSON格式返回数据帧?

我正在通过使用localhost:8998/sessions/0/statements的HTTP POST调用在Livy Server中执行以下语句， ..

发布时间：2019-11-24 20:08:30 json apache-spark cloudera apache-spark-2.0 livy 其他开发

Zeppelin 0.7.2版本不支持spark 2.2.0

如何降级spark版本？什么可能是其他解决方案？我必须使用spark会话连接我的配置单元表来激发。但是zeppelin不支持spark版本。解决方案这里有两个原因。 Zeppelin 0.7.2将spark 2.2+标记为不支持的版本。 https://github.com/apache/zeppelin/blob/v0.7.2/spark/src/main/java/or ..

发布时间：2018-06-12 14:08:15 apache-spark hive apache-zeppelin livy 其他开发

livy相关内容