apache-zeppelin相关内容
我在 Zeppelin 中担任口译员.我正在使用 Spark2.0,我建立了一个会话:创建 解决方案 通常,您不应在 Zeppelin 中初始化 SparkSession 或 SparkContext.Zeppelin 笔记本配置为为您创建会话,其正确行为取决于使用提供的对象. 初始化您的 SparkSession 会破坏 Zeppelin 的核心功能,并且在最坏的情况下,多个 Sp
..
如果我有一个带有 DataFrame 的 Scala 段落,我可以与 python 共享和使用它.(据我所知,pyspark 使用 py4j) 我试过这个: Scala 段落: x.printSchemaz.put("xtable", x ) Python 段落: %pyspark将 numpy 导入为 np将熊猫导入为 pd导入 matplotlib.pyplot 作为 plt
..
我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量,因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法,我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par
..
当我在 Zeppelin 中使用 R 时它可以工作,但是当我让 Zeppelin 运行一天时,第二天我只收到 R 的这个错误: sparkR 后端已死,请尝试增加 spark.r.backendConnectionTimeout 我从 Spark configuration 中看到默认值已设置到 6000 秒.有谁知道如何更改此值以及什么值对保持 Zeppelin 一直运行有用?我可以
..
我安装了 Zeppelin 并且正在使用 Spark 解释器.但是,如果出现语法或运行时错误,除了“错误"字样之外,我找不到任何详细信息. 例如,我有这个代码: 而且我只看到右上角的“ERROR"字样. 在我自己的电脑上,scala 会打印如下内容: $ scala example.sc./example.sc:1: 错误:递归值需要类型val a = 这是一个错误^.exam
..
当我在 Maven 项目(使用相同的 Scala 版本)中使用枚举时,它按预期工作. 对象 t {对象 DashStyle 扩展枚举 {val Solid,ShortDash = 值}def f(style: DashStyle.Value) = println(style)def main(args: Array[String]) = f(DashStyle.Solid)} 但是当它在 Ap
..
我已经在虚拟机上部署了 HDP: 2.6.4 我可以看到 spark2 没有指向正确的 python 文件夹.我的问题是 1) 如何找到我的 python 所在的位置? 解决方案:输入whereis python,你会得到它所在位置的列表 2) 如何更新现有的 python 库并将新库添加到该文件夹?例如,相当于 CLI 上的“pip install numpy".
..
我已经在我的 centOS 系统上安装了 zeppelin.它没有在 JDBC 解释器下列出 hive. 我的系统上安装了 hive.Hive Metastore 和 hiveserver2 正在运行.HIVE_HOME 和 HADOOP_HOME 设置正确. Zeppelin 编辑器出错: paragraph_1490339323949_-1789938581's Interpre
..
我正在尝试使用 Zeppelin(Windows 10 上的 v 0.7.0 java 1.8;与 docker v .0.7.1) 用于查询 Oracle 数据库的 JDBC 解释器. 到目前为止,我已经找到了诸如 example 之类的论文.我尝试使用 jdbc 解释器: common.max_count=100default.driver=oracle.jdbc.pool.Oracl
..
我在使用 Apache Zeppelin 时遇到问题. 当我运行一个新的 python notebook 并尝试执行像 import dask 这样的命令时它导致以下错误: 回溯(最近一次调用最后一次):文件“/tmp/1599314081091-0/zeppelin_python.py",第 162 行,在 中.代码 = compile(mod, '',
..
我开始在 Zeppelin 上使用 Flink,并尝试在流媒体中运行最简单的程序:wordcount.当我使用终端在本地模式下运行此代码时,它可以工作. 这是我的做法:https://ci.apache.org/projects/flink/flink-docs-release-1.2/quickstart/setup_quickstart.html 这是代码: object Soc
..
当我放入 println 语句时,它只输出代码.我错过了什么愚蠢的事情? 解决方案 将默认解释器设置为 spark (scala) 或使用 %spark 为段落显式设置.
..
我想要一个更具交互性的仪表板.就像从数据库读取数据,给它选择框,选择框的onchange发送值并运行查询. 我想在选定的值上使用 zeppelin bcz 来实现这一点,我必须显示分析. 实现这一目标的方法是什么,这是否可以通过 zeppelin 实现. 我尝试使用选择框,但无法保存所选值并将其发送到下一个查询并执行该值.类似的东西 选择年龄,计数(1)值从银行where ma
..
这篇帖子解释了如何向S3的齐柏林飞艇.现在我想在每次启动 Zeppelin 时自动运行此代码.有没有办法做到这一点? 解决方案 找到了.可以使用 Zeppelin API 来完成:https://zeppelin.incubator.apache.org/docs/0.5.6-incubating/rest-api/rest-notebook.html
..
我正在尝试使用 Zeppelin (HDP 2.6) 在 Spark2 中使用斯坦福 NLP 库.显然,Databricks 为 Spark 的斯坦福 NLP 库构建了包装器.链接:https://github.com/databricks/spark-corenlp 我已经从 这里下载了上述包装器的 jar 并且还从 这里 下载了斯坦福 NLP jar.然后我在 Zeppelin 的 Sp
..
我已经使用以下命令在 kubernetes 上配置了我的 zeppelin: apiVersion: apps/v1种类:部署元数据:名称:齐柏林飞艇标签: [...]规格:复制品:1选择器:匹配标签:app.kubernetes.io/名称:齐柏林飞艇app.kubernetes.io/instance:齐柏林飞艇模板:元数据:标签:app.kubernetes.io/name: zeppel
..
我正在使用 Zeppelin v0.7.3 笔记本来运行 Pyspark 脚本.在一个段落中,我正在运行脚本以将数据从 dataframe 写入 Blob 文件夹中的 parquet 文件.文件按国家/地区进行分区.数据帧的行数为 99,452,829.当脚本到达1小时时,遇到错误—— 400 状态码错误:“要求失败:会话不是活跃. 我的笔记本默认解释器是 jdbc.我已经阅读了 ti
..
我在 Spark 集群上使用 Zeppelin 和 Hadoop. 我想检查一个段落的状态,看看它是SUCCESS、RUNNING、NOT RUN OR ERROR. 我知道我可以滚动到段落并阅读右上角的作品. 我可以以编程方式检查段落的状态吗? 解决方案 是的,你可以.Zeppelin 公开了一个 REST API,您可以使用它来管理它. 正如文档中所说,您可以将
..
像 dataframe.show()、sqlContext.read.json 这样的操作工作正常,但大多数函数给出“JavaPackage object is not callable error".例如:当我这样做时 dataFrame.withColumn(field_name, monotonically_increasing_id()) 出现错误 文件“/tmp/spark-cd4
..
我正在按照本指南在使用 minikube 设置的本地 kubernetes 集群中运行 zeppelin 容器. https://zeppelin.apache.org/docs/0.9.0-SNAPSHOT/quickstart/kubernetes.html 我能够设置 zeppelin 并在那里运行一些示例代码.我已经下载了 spark 2.4.5 &2.4.0 源代码并使用以下
..