apache-zeppelin相关内容

建立一个 SparkSession

我在 Zeppelin 中担任口译员.我正在使用 Spark2.0,我建立了一个会话:创建 解决方案 通常,您不应在 Zeppelin 中初始化 SparkSession 或 SparkContext.Zeppelin 笔记本配置为为您创建会话,其正确行为取决于使用提供的对象. 初始化您的 SparkSession 会破坏 Zeppelin 的核心功能,并且在最坏的情况下,多个 Sp ..
发布时间:2021-11-28 21:46:12 其他开发

Zeppelin:Scala 数据框到 python

如果我有一个带有 DataFrame 的 Scala 段落,我可以与 python 共享和使用它.(据我所知,pyspark 使用 py4j) 我试过这个: Scala 段落: x.printSchemaz.put("xtable", x ) Python 段落: %pyspark将 numpy 导入为 np将熊猫导入为 pd导入 matplotlib.pyplot 作为 plt ..
发布时间:2021-11-28 21:45:51 Python

Spark UDF 如何将 Map 转换为列

我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量,因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法,我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par ..
发布时间:2021-11-14 23:54:24 其他开发

如何更改 spark.r.backendConnectionTimeout 值?

当我在 Zeppelin 中使用 R 时它可以工作,但是当我让 Zeppelin 运行一天时,第二天我只收到 R 的这个错误: sparkR 后端已死,请尝试增加 spark.r.backendConnectionTimeout 我从 Spark configuration 中看到默认值已设置到 6000 秒.有谁知道如何更改此值以及什么值对保持 Zeppelin 一直运行有用?我可以 ..
发布时间:2021-11-14 23:54:21 其他开发

是否可以在 Zeppelin 段落中看到一些错误输出?

我安装了 Zeppelin 并且正在使用 Spark 解释器.但是,如果出现语法或运行时错误,除了“错误"字样之外,我找不到任何详细信息. 例如,我有这个代码: 而且我只看到右上角的“ERROR"字样. 在我自己的电脑上,scala 会打印如下内容: $ scala example.sc./example.sc:1: 错误:递归值需要类型val a = 这是一个错误^.exam ..
发布时间:2021-11-14 23:54:18 其他开发

在 Spark 2 解释器下使用 Python 和 Zeppelin

我已经在虚拟机上部署了 HDP: 2.6.4 我可以看到 spark2 没有指向正确的 python 文件夹.我的问题是 1) 如何找到我的 python 所在的位置? 解决方案:输入whereis python,你会得到它所在位置的列表 2) 如何更新现有的 python 库并将新库添加到该文件夹​​?例如,相当于 CLI 上的“pip install numpy". ..
发布时间:2021-11-14 23:54:12 Python

Zeppelin Oracle SQL 查询优先运行

我正在尝试使用 Zeppelin(Windows 10 上的 v 0.7.0 java 1.8;与 docker v .0.7.1) 用于查询 Oracle 数据库的 JDBC 解释器. 到目前为止,我已经找到了诸如 example 之类的论文.我尝试使用 jdbc 解释器: common.max_count=100default.driver=oracle.jdbc.pool.Oracl ..
发布时间:2021-11-14 23:54:06 数据库

Apache Zeppelin 问题 - Python 错误

我在使用 Apache Zeppelin 时遇到问题. 当我运行一个新的 python notebook 并尝试执行像 import dask 这样的命令时它导致以下错误: 回溯(最近一次调用最后一次):文件“/tmp/1599314081091-0/zeppelin_python.py",第 162 行,在 中.代码 = compile(mod, '', ..
发布时间:2021-11-14 23:54:03 Python

带有 zeppelin notebook 的动态交互式仪表板

我想要一个更具交互性的仪表板.就像从数据库读取数据,给它选择框,选择框的onchange发送值并运行查询. 我想在选定的值上使用 zeppelin bcz 来实现这一点,我必须显示分析. 实现这一目标的方法是什么,这是否可以通过 zeppelin 实现. 我尝试使用选择框,但无法保存所选值并将其发送到下一个查询并执行该值.类似的东西 选择年龄,计数(1)值从银行where ma ..
发布时间:2021-11-14 23:53:53 前端开发

Apache Zeppelin:启动时自动运行代码?

这篇帖子解释了如何向S3的齐柏林飞艇.现在我想在每次启动 Zeppelin 时自动运行此代码.有没有办法做到这一点? 解决方案 找到了.可以使用 Zeppelin API 来完成:https://zeppelin.incubator.apache.org/docs/0.5.6-incubating/rest-api/rest-notebook.html ..
发布时间:2021-11-14 23:53:50 其他开发

Zeppelin k8s:更改解释器 pod 配置

我已经使用以下命令在 kubernetes 上配置了我的 zeppelin: apiVersion: apps/v1种类:部署元数据:名称:齐柏林飞艇标签: [...]规格:复制品:1选择器:匹配标签:app.kubernetes.io/名称:齐柏林飞艇app.kubernetes.io/instance:齐柏林飞艇模板:元数据:标签:app.kubernetes.io/name: zeppel ..
发布时间:2021-11-14 23:53:43 其他开发

超时错误:带有 400 状态代码的错误:“要求失败:会话未处于活动状态".

我正在使用 Zeppelin v0.7.3 笔记本来运行 Pyspark 脚本.在一个段落中,我正在运行脚本以将数据从 dataframe 写入 Blob 文件夹中的 parquet 文件.文件按国家/地区进行分区.数据帧的行数为 99,452,829.当脚本到达1小时时,遇到错误—— 400 状态码错误:“要求失败:会话不是活跃. 我的笔记本默认解释器是 jdbc.我已经阅读了 ti ..
发布时间:2021-11-14 23:53:40 Python

我可以在 Zeppelin 中以编程方式检查段落的状态吗?

我在 Spark 集群上使用 Zeppelin 和 Hadoop. 我想检查一个段落的状态,看看它是SUCCESS、RUNNING、NOT RUN OR ERROR. 我知道我可以滚动到段落并阅读右上角的作品. 我可以以编程方式检查段落的状态吗? 解决方案 是的,你可以.Zeppelin 公开了一个 REST API,您可以使用它来管理它. 正如文档中所说,您可以将 ..
发布时间:2021-11-14 23:53:37 其他开发