livy相关内容
我正在创建一个 EMR 集群,并使用 jupyter notebook 运行一些 spark 任务.我的任务在执行大约 1 小时后死亡,错误是: 遇到错误:来自 https://xxx.xx.x.xxx:18888/sessions/0/statements/20 的无效状态代码“400",错误负载:“需求失败:会话未激活." 我的理解是它与 Livy 配置 livy.server.sessi
..
我正在使用 Zeppelin v0.7.3 笔记本来运行 Pyspark 脚本.在一个段落中,我正在运行脚本以将数据从 dataframe 写入 Blob 文件夹中的 parquet 文件.文件按国家/地区进行分区.数据帧的行数为 99,452,829.当脚本到达1小时时,遇到错误—— 400 状态码错误:“要求失败:会话不是活跃. 我的笔记本默认解释器是 jdbc.我已经阅读了 ti
..
如何降级spark版本?其他解决方案是什么?我必须使用 spark 会话将我的配置单元表连接到 spark.但是 zeppelin 不支持 spark 版本. 解决方案 这里有两个原因. [1] Zeppelin 0.7.2 将 spark 2.2+ 标记为不受支持的版本. https://github.com/apache/zeppelin/blob/v0.7.2/spark
..
我对如何将参数作为 REST API JSON 传递有点困惑. 考虑下面的 spark 提交命令. spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_2.11:2.4.4 \--master 纱线 \--deploy-mode 集群\--n
..
我使用 Livy REST API 提交 Spark 应用. {“文件":,“className":“",“参数":my_args,“conf":my_conf}my_args = [args1, args2, ...]my_conf = {'foo1': 'bar1', 'foo2': 'bar2'...} 我希望 my_conf (json secrets
..
我正在玩Livy/Spark,对如何使用其中的一些东西有些困惑.在livy examples文件夹中有一个示例,该示例中的建筑作业已上传到Spark.我喜欢正在使用的接口,但是我想通过http接口到livy/spark,因为我没有Java客户端.这样看来,如果我使用livyclient上传jar,它仅存在于该spark会话中.有没有一种方法可以将livyjobs上传到spark,然后在所有spar
..
我是BigData的新用户,我曾尝试用apache Livy来调用spark作业. 与提交命令行工作正常.天生的我有例外 命令行: curl -X POST --data'{"file":"/user/romain/spark-examples.jar","className":"org.apache.spark.examples.SparkPi"}'-H'内容-类型:applicat
..
我开始使用Livy,在我的设置中,Livy服务器在Unix机器上运行,我可以对它进行卷曲并执行作业.我创建了一个胖子罐并将其上传到hdfs,我只是从Livy调用了它的主要方法.我的用于Livy的Json有效负载如下所示: { "file" : "hdfs:///user/data/restcheck/spark_job_2.11-3.0.0-RC1- SNAPSHOT.jar", "prox
..
我正在使用Zeppelin v0.7.3笔记本运行Pyspark脚本.在一个段落中,我正在运行脚本以将数据从dataframe写入Blob文件夹中的parquet文件.文件按国家/地区分区.数据帧的行数为99,452,829.脚本到达1 hour时,遇到错误- 400 StatusCode错误:“要求失败:会话未完成 活跃. 我的笔记本电脑默认解释器是jdbc.我已阅读有关timeou
..
我试图了解如何将Spark作业提交给Apache Livy. 我在POM.xml中添加了以下API: com.cloudera.livy livy-api 0.3.0
..
我最近开始使用Spark Scala,HDFS,sbt和Livy.目前,我尝试创建livy批处理. Warning: Skip remote jar hdfs://localhost:9001/jar/project.jar. java.lang.ClassNotFoundException: SimpleApp at java.net.URLClassLoader.findClass(UR
..
在将Spark作业提交给Apache Livy时,我不知道如何以编程方式传递SparkSession参数: 这是Test Spark作业: class Test extends Job[Int]{ override def call(jc: JobContext): Int = { val spark = jc.sparkSession() // ...
..
我正在创建一个EMR集群,并使用jupyter Notebook运行一些spark任务. 我的任务在执行大约1小时后死亡,错误是: An error was encountered: Invalid status code '400' from https://xxx.xx.x.xxx:18888/sessions/0/statements/20 with error payload: "r
..
我正在通过Curl提交一次Livy(0.6.0)会话中的Spark作业 作业是一个很大的jar文件,完全扩展了Job接口,如下所示: https://stackoverflow.com/a/49220879/8557851 实际上,使用以下curl命令运行此代码时: curl -X POST -d '{"kind": "spark","files":["/config.json"
..
我正在尝试使用Livy远程提交几个Spark 职位.可以说我想远程执行 spark-submit任务(使用所有选项) spark-submit \ --class com.company.drivers.JumboBatchPipelineDriver \ --conf spark.driver.cores=1 \ --conf spark.driver.memory=1g \ --conf
..
我正在运行Pyspark脚本,将数据帧写入jupyter Notebook中的csv,如下所示: df.coalesce(1).write.csv('Data1.csv',header = 'true') 运行一个小时后,出现以下错误. 错误:来自 http://.....session 的无效状态代码无效 我的配置就像: spark.conf.set("spark.d
..
我正在使用Apache Livy批处理POST方法提交Spark作业。 此HTTP请求是使用AirFlow发送的。提交作业后,我正在使用批处理ID跟踪状态。 Livy /资源管理器。 使用Apache Livy REST API可以做到吗? 解决方案 Livy有一个端点来获取日志 / sessions / {sessionId} / log & / batches / {bat
..
我想使用Airflow来编排工作,包括运行一些猪脚本,shell脚本和Spark作业。 主要用于Spark作业,我想使用Apache Livy但不确定是否使用或运行spark-submit是个好主意。 即使我提交了使用Airflow跟踪Spark作业的最佳方法是什么? > 解决方案 我假设您是包含 Java的应用程序 JAR / Scala 您要提交到远程 Spark 集群的代
..
我正在通过使用localhost:8998/sessions/0/statements的HTTP POST调用在Livy Server中执行以下语句,
..
如何降级spark版本?什么可能是其他解决方案?我必须使用spark会话连接我的配置单元表来激发。但是zeppelin不支持spark版本。 解决方案 这里有两个原因。 Zeppelin 0.7.2将spark 2.2+标记为不支持的版本。 https://github.com/apache/zeppelin/blob/v0.7.2/spark/src/main/java/or
..