apache-zeppelin相关内容
我正在使用 Presto 和 Zeppelin.有很多原始数据.我必须总结这些数据. 我想每 5 秒分组一次. serviceType logType 日期------------------------------------------------------service1 log1 2017-10-24 23:00:23.206service1 log1 2017-10-24 23
..
如何在 zeppelin 中导入额外的依赖项? 我正在尝试在 apache zeppelin 中导入一个库(鞍),但是... import org.saddle._:21: 错误:对象鞍不是包 org 的成员导入 org.saddle._^ 我试过像这样使用 %dep 解释器(依赖加载器): %depz.reset()z.addRepo("Saddle Repo").
..
Apache Zeppelin 对 AngularJS.虽然 Scala 和 Javascript 之间存在差距. 我正在尝试向 Zeppelin 添加 Highcharts 支持以填补这一空白.主要目标是直接从 Spark 数据帧. 经过几轮重构,我得到了如下界面. github.com/knockdata/zeppelin-highcharts 这里有两个选项.哪个选项
..
在“Zeppelin 教程"笔记本中,我无法使用 %sql 解释器.它将输出“sql interpreter not found".但是 spark 命令工作正常,以及 %md 和 %sh. 这是日志: ERROR [2015-10-20 10:13:35,045] ({qtp885851948-51} NotebookServer.java[runParagraph]:615) -
..
我在 S3 中存储了大约 1 百万个文本文件.我想根据文件夹名称重命名所有文件. 我如何在 spark-scala 中做到这一点? 我正在寻找一些示例代码. 我正在使用 zeppelin 运行我的 spark 脚本. 我按照答案中的建议尝试了以下代码 import org.apache.hadoop.fs._val src = new Path("s3://trfsmal
..
我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame,每个值位于单独的列中并调用 z.show(). 但是,查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来
..
我正在使用本教程 在 docker 容器中的纱线模式下火花集群 以纱线模式在火花集群中启动齐柏林飞艇.但是我被困在第 4 步.我在我的 docker 容器中找不到 conf/zeppelin-env.sh 来进行进一步的配置.我尝试将 zeppelin 的这些 conf 文件夹放入其中,但现在成功了.除了那个 zeppelin notebook 也没有在 localhost:9001 上运行.
..
我已经在我的 aws EC2 机器上安装了 Zeppelin 以连接到我的 Spark 集群. Spark 版本:独立:spark-1.2.1-bin-hadoop1.tgz 在我的用例中尝试访问 S3 中的文件时,我能够连接到 Spark 集群,但出现以下错误. 代码: sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",
..
我在 Amazon EMR 中运行 Apache Zeppelin 0.8.0.最近,spark 解释器开始无法下拉库依赖项.这是因为 zeppelin.interpreter.dep.mvnRepo 配置参数设置为 http://repo1.maven.org/maven2/ 和 maven repo 最近停止支持 http,如下所述:https://support.sonatype.com/h
..
我们如何从命令行运行笔记本? 进一步到 1,我将如何将命令行参数传递到笔记本中?IE.从笔记本代码中访问命令行参数? 解决方案 所以我遇到了同样的问题,并设法解决了如何使用 API 来运行使用 curl 的笔记本.至于传递命令行参数,认为根本没有办法做到这一点 - 您必须在服务器上使用某种共享状态(例如,让笔记本从文件中读取,并修改文件). 无论如何,这就是我设法运行笔记本的方
..
我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl
..
我刚刚安装了 apache zeppelin(从 git repo 的最新源构建)并成功看到它在端口 10008 中启动并运行.我用一行代码创建了一个新的笔记本 val a = "Hello World!" 运行这一段,看到下面的错误 java.net.ConnectException:连接被拒绝java.net.PlainSocketImpl.socketConnect(Nativ
..
我在 Zeppelin 0.7 笔记本中使用 Spark 2 和 Scala 2.11.我有一个可以像这样打印的数据框: dfLemma.select("text", "lemma").show(20,false) 输出如下: +----------------------------------------------------------------------------------
..
我正在尝试通过将 Apache Zeppelin 与 d3.js 集成来为它添加更多可视化选项 我发现了一个例子,有人用 Leaflet.js here,并尝试做类似的事情——不幸的是我不太熟悉 angularJS(Zeppelin 用来解释前端语言的东西).我也没有流式传输数据.下面是我的代码,仅使用 d3.js 中的一个简单教程示例 %angular
..
我看过 zeppelin-plotly 但它似乎太复杂了.另一个让我担心的事情是它涉及修改 zeppelin 的 .war 文件,我不想因错误而破坏. 还有其他方法可以将 Plotly 与 Zeppelin 一起使用吗? 解决方案 使用 %angular 解释器功能解决了这个问题.这是让它工作的完整步骤 1:安装(如果你还没有) %sh pip install plotly
..
从 Zeppelin-0.7 开始,Zeppelin 开始使用 Helium 框架支持 Helium 插件/包.但是,我无法在 Helium 页面 (localhost:8080/#/helium) 上查看任何插件.根据这个 JIRA,我放置了示例 Helium.json(可在 s3) 在/local-repo/helium-registry-cache 下.但是,之后我在重新启动 Apache
..
我想在 Zeppelin 中读取 csv 文件并想使用 databricks'spark-csv 包:https://github.com/databricks/spark-csv 在 spark-shell 中,我可以将 spark-csv 与 一起使用 spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 但是我如何告
..
我在 Apache Spark 中有 registertemptable,使用下面的 Zeppelin: val hvacText = sc.textFile("...")case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String)val hvac
..
尝试在 Windows 10 上安装和配置 Apache Zeppelin 时出现以下错误: org.apache.zeppelin.interpreter.InterpreterException:文件名,目录名或卷标语法不正确在 org.apache.zeppelin.interpreter.remote.RemoteInterpreterManagedProcess.start(Remot
..
我有一个 pyspark 数据框,我正在尝试使用 toPandas() 将其转换为 Pandas,但是我遇到了下面提到的错误. 我尝试了不同的选项,但得到了相同的错误: 1) 将数据限制为仅几条记录 2) 明确使用 collect()(我相信 toPandas() 固有地使用) 探索了许多关于 SO 的帖子,但 AFAIK 没有一个有 toPandas() 问题. 我的数据帧
..