apache-zeppelin相关内容

apache zeppelin 附加存储库导入

如何在 zeppelin 中导入额外的依赖项? 我正在尝试在 apache zeppelin 中导入一个库(鞍),但是... import org.saddle._:21: 错误:对象鞍不是包 org 的成员导入 org.saddle._^ 我试过像这样使用 %dep 解释器(依赖加载器): %depz.reset()z.addRepo("Saddle Repo"). ..
发布时间:2021-11-14 23:50:19 Java开发

如何在 spark scala 中重命名 S3 文件而不是 HDFS

我在 S3 中存储了大约 1 百万个文本文件.我想根据文件夹名称重命名所有文件. 我如何在 spark-scala 中做到这一点? 我正在寻找一些示例代码. 我正在使用 zeppelin 运行我的 spark 脚本. 我按照答案中的建议尝试了以下代码 import org.apache.hadoop.fs._val src = new Path("s3://trfsmal ..

如何将 mllib 矩阵转换为 spark 数据帧?

我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame,每个值位于单独的列中并调用 z.show(). 但是,查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来 ..

在火花集群模式下运行 zeppelin

我正在使用本教程 在 docker 容器中的纱线模式下火花集群 以纱线模式在火花集群中启动齐柏林飞艇.但是我被困在第 4 步.我在我的 docker 容器中找不到 conf/zeppelin-env.sh 来进行进一步的配置.我尝试将 zeppelin 的这些 conf 文件夹放入其中,但现在成功了.除了那个 zeppelin notebook 也没有在 localhost:9001 上运行. ..
发布时间:2021-11-14 23:50:04 其他开发

为什么 Zeppelin notebook 无法连接到 S3

我已经在我的 aws EC2 机器上安装了 Zeppelin 以连接到我的 Spark 集群. Spark 版本:独立:spark-1.2.1-bin-hadoop1.tgz 在我的用例中尝试访问 S3 中的文件时,我能够连接到 Spark 集群,但出现以下错误. 代码: sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", ..
发布时间:2021-11-14 23:50:01 其他开发

Apache Zeppelin 不适用于 maven repo 的 https

我在 Amazon EMR 中运行 Apache Zeppelin 0.8.0.最近,spark 解释器开始无法下拉库依赖项.这是因为 zeppelin.interpreter.dep.mvnRepo 配置参数设置为 http://repo1.maven.org/maven2/ 和 maven repo 最近停止支持 http,如下所述:https://support.sonatype.com/h ..
发布时间:2021-11-14 23:49:58 其他开发

如何从命令行(自动)运行 zeppelin notebook

我们如何从命令行运行笔记本? 进一步到 1,我将如何将命令行参数传递到笔记本中?IE.从笔记本代码中访问命令行参数? 解决方案 所以我遇到了同样的问题,并设法解决了如何使用 API 来运行使用 curl 的笔记本.至于传递命令行参数,认为根本没有办法做到这一点 - 您必须在服务器上使用某种共享状态(例如,让笔记本从文件中读取,并修改文件). 无论如何,这就是我设法运行笔记本的方 ..
发布时间:2021-11-14 23:49:55 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..

齐柏林飞艇中的 Hello world 失败

我刚刚安装了 apache zeppelin(从 gi​​t repo 的最新源构建)并成功看到它在端口 10008 中启动并运行.我用一行代码创建了一个新的笔记本 val a = "Hello World!" 运行这一段,看到下面的错误 java.net.ConnectException:连接被拒绝java.net.PlainSocketImpl.socketConnect(Nativ ..
发布时间:2021-11-14 23:49:49 其他开发

在 Apache Zeppelin 中使用 d3.js

我正在尝试通过将 Apache Zeppelin 与 d3.js 集成来为它添加更多可视化选项 我发现了一个例子,有人用 Leaflet.js here,并尝试做类似的事情——不幸的是我不太熟悉 angularJS(Zeppelin 用来解释前端语言的东西).我也没有流式传输数据.下面是我的代码,仅使用 d3.js 中的一个简单教程示例 %angular ..
发布时间:2021-11-14 23:49:43 前端开发

如何在 Zeppelin 中使用 Plotly

我看过 zeppelin-plotly 但它似乎太复杂了.另一个让我担心的事情是它涉及修改 zeppelin 的 .war 文件,我不想因错误而破坏. 还有其他方法可以将 Plotly 与 Zeppelin 一起使用吗? 解决方案 使用 %angular 解释器功能解决了这个问题.这是让它工作的完整步骤 1:安装(如果你还没有) %sh pip install plotly ..
发布时间:2021-11-14 23:49:40 Python

使用 pyspark 的 toPandas() 错误:“int"对象不可迭代

我有一个 pyspark 数据框,我正在尝试使用 toPandas() 将其转换为 Pandas,但是我遇到了下面提到的错误. 我尝试了不同的选项,但得到了相同的错误: 1) 将数据限制为仅几条记录 2) 明确使用 collect()(我相信 toPandas() 固有地使用) 探索了许多关于 SO 的帖子,但 AFAIK 没有一个有 toPandas() 问题. 我的数据帧 ..
发布时间:2021-11-14 23:49:21 Python