apache-zeppelin 第5页 - IT屋-程序员软件开发技术分享社区

如何使用 Presto 将时间列分组为 5 秒间隔并计算行数?

我正在使用 Presto 和 Zeppelin.有很多原始数据.我必须总结这些数据. 我想每 5 秒分组一次. serviceType logType 日期------------------------------------------------------service1 log1 2017-10-24 23:00:23.206service1 log1 2017-10-24 23 ..

发布时间：2021-11-14 23:50:22 sql apache-zeppelin presto 其他开发

apache zeppelin 附加存储库导入

如何在 zeppelin 中导入额外的依赖项? 我正在尝试在 apache zeppelin 中导入一个库(鞍)，但是... import org.saddle._:21: 错误:对象鞍不是包 org 的成员导入 org.saddle._^ 我试过像这样使用 %dep 解释器(依赖加载器): %depz.reset()z.addRepo("Saddle Repo"). ..

发布时间：2021-11-14 23:50:19 java scala maven apache-zeppelin saddle Java开发

是否有更好的界面来为 Zeppelin 添加 Highcharts 支持

Apache Zeppelin 对 AngularJS.虽然 Scala 和 Javascript 之间存在差距. 我正在尝试向 Zeppelin 添加 Highcharts 支持以填补这一空白.主要目标是直接从 Spark 数据帧. 经过几轮重构，我得到了如下界面. github.com/knockdata/zeppelin-highcharts 这里有两个选项.哪个选项 ..

发布时间：2021-11-14 23:50:16 apache-spark highcharts apache-zeppelin 其他开发

Apache zeppelin 教程，错误“找不到 sql 解释器"

在“Zeppelin 教程"笔记本中，我无法使用 %sql 解释器.它将输出“sql interpreter not found".但是 spark 命令工作正常，以及 %md 和 %sh. 这是日志: ERROR [2015-10-20 10:13:35,045] ({qtp885851948-51} NotebookServer.java[runParagraph]:615) - ..

发布时间：2021-11-14 23:50:13 apache-spark-sql apache-zeppelin 其他开发

如何在 spark scala 中重命名 S3 文件而不是 HDFS

我在 S3 中存储了大约 1 百万个文本文件.我想根据文件夹名称重命名所有文件. 我如何在 spark-scala 中做到这一点? 我正在寻找一些示例代码. 我正在使用 zeppelin 运行我的 spark 脚本. 我按照答案中的建议尝试了以下代码 import org.apache.hadoop.fs._val src = new Path("s3://trfsmal ..

发布时间：2021-11-14 23:50:10 scala amazon-web-services apache-spark amazon-s3 apache-zeppelin 其他开发

如何将 mllib 矩阵转换为 spark 数据帧?

我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame，每个值位于单独的列中并调用 z.show(). 但是，查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来 ..

发布时间：2021-11-14 23:50:07 scala apache-spark matrix apache-spark-mllib apache-zeppelin 其他开发

在火花集群模式下运行 zeppelin

我正在使用本教程在 docker 容器中的纱线模式下火花集群以纱线模式在火花集群中启动齐柏林飞艇.但是我被困在第 4 步.我在我的 docker 容器中找不到 conf/zeppelin-env.sh 来进行进一步的配置.我尝试将 zeppelin 的这些 conf 文件夹放入其中，但现在成功了.除了那个 zeppelin notebook 也没有在 localhost:9001 上运行. ..

发布时间：2021-11-14 23:50:04 hadoop apache-spark docker hadoop-yarn apache-zeppelin 其他开发

为什么 Zeppelin notebook 无法连接到 S3

我已经在我的 aws EC2 机器上安装了 Zeppelin 以连接到我的 Spark 集群. Spark 版本:独立:spark-1.2.1-bin-hadoop1.tgz 在我的用例中尝试访问 S3 中的文件时，我能够连接到 Spark 集群，但出现以下错误. 代码: sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", ..

发布时间：2021-11-14 23:50:01 apache-spark apache-zeppelin 其他开发

Apache Zeppelin 不适用于 maven repo 的 https

我在 Amazon EMR 中运行 Apache Zeppelin 0.8.0.最近，spark 解释器开始无法下拉库依赖项.这是因为 zeppelin.interpreter.dep.mvnRepo 配置参数设置为 http://repo1.maven.org/maven2/ 和 maven repo 最近停止支持 http，如下所述:https://support.sonatype.com/h ..

发布时间：2021-11-14 23:49:58 maven apache-zeppelin 其他开发

如何从命令行(自动)运行 zeppelin notebook

我们如何从命令行运行笔记本? 进一步到 1，我将如何将命令行参数传递到笔记本中?IE.从笔记本代码中访问命令行参数? 解决方案所以我遇到了同样的问题，并设法解决了如何使用 API 来运行使用 curl 的笔记本.至于传递命令行参数，认为根本没有办法做到这一点 - 您必须在服务器上使用某种共享状态(例如，让笔记本从文件中读取，并修改文件). 无论如何，这就是我设法运行笔记本的方 ..

发布时间：2021-11-14 23:49:55 apache-zeppelin 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手，我想完成一个简单的练习，我将把 csv 文件从 Pandas 转换为 Spark 数据框，然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..

发布时间：2021-11-14 23:49:52 apache-spark pyspark apache-spark-sql apache-zeppelin 其他开发

齐柏林飞艇中的 Hello world 失败

我刚刚安装了 apache zeppelin(从 git repo 的最新源构建)并成功看到它在端口 10008 中启动并运行.我用一行代码创建了一个新的笔记本 val a = "Hello World!" 运行这一段，看到下面的错误 java.net.ConnectException:连接被拒绝java.net.PlainSocketImpl.socketConnect(Nativ ..

发布时间：2021-11-14 23:49:49 apache-spark apache-zeppelin 其他开发

如何在 Zeppelin/Spark/Scala 中漂亮地打印数据框?

我在 Zeppelin 0.7 笔记本中使用 Spark 2 和 Scala 2.11.我有一个可以像这样打印的数据框: dfLemma.select("text", "lemma").show(20,false) 输出如下: +---------------------------------------------------------------------------------- ..

发布时间：2021-11-14 23:49:46 scala apache-spark apache-zeppelin 其他开发

在 Apache Zeppelin 中使用 d3.js

我正在尝试通过将 Apache Zeppelin 与 d3.js 集成来为它添加更多可视化选项我发现了一个例子，有人用 Leaflet.js here，并尝试做类似的事情——不幸的是我不太熟悉 angularJS(Zeppelin 用来解释前端语言的东西).我也没有流式传输数据.下面是我的代码，仅使用 d3.js 中的一个简单教程示例 %angular ..

发布时间：2021-11-14 23:49:43 javascript d3.js apache-zeppelin 前端开发

如何在 Zeppelin 中使用 Plotly

我看过 zeppelin-plotly 但它似乎太复杂了.另一个让我担心的事情是它涉及修改 zeppelin 的 .war 文件，我不想因错误而破坏. 还有其他方法可以将 Plotly 与 Zeppelin 一起使用吗? 解决方案使用 %angular 解释器功能解决了这个问题.这是让它工作的完整步骤 1:安装(如果你还没有) %sh pip install plotly ..

发布时间：2021-11-14 23:49:40 python apache-spark plotly apache-zeppelin Python

Apache Zeppelin - 如何在 Apache Zeppelin 中使用 Helium 框架

从 Zeppelin-0.7 开始，Zeppelin 开始使用 Helium 框架支持 Helium 插件/包.但是，我无法在 Helium 页面 (localhost:8080/#/helium) 上查看任何插件.根据这个 JIRA，我放置了示例 Helium.json(可在 s3) 在/local-repo/helium-registry-cache 下.但是，之后我在重新启动 Apache ..

发布时间：2021-11-14 23:49:37 apache apache-zeppelin 服务器开发

使用 spark-csv 在 zeppelin 中读取 csv 文件

我想在 Zeppelin 中读取 csv 文件并想使用 databricks'spark-csv 包:https://github.com/databricks/spark-csv 在 spark-shell 中，我可以将 spark-csv 与一起使用 spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 但是我如何告 ..

发布时间：2021-11-14 23:49:34 apache-spark apache-zeppelin 其他开发

从 Apache SQL Spark 中删除临时表

我在 Apache Spark 中有 registertemptable，使用下面的 Zeppelin: val hvacText = sc.textFile("...")case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String)val hvac ..

发布时间：2021-11-14 23:49:31 scala apache-spark apache-spark-sql apache-zeppelin 其他开发

在 Windows 10 上配置 Apache Zeppelin 时出错

尝试在 Windows 10 上安装和配置 Apache Zeppelin 时出现以下错误: org.apache.zeppelin.interpreter.InterpreterException:文件名，目录名或卷标语法不正确在 org.apache.zeppelin.interpreter.remote.RemoteInterpreterManagedProcess.start(Remot ..

发布时间：2021-11-14 23:49:25 hadoop apache-zeppelin 其他开发

使用 pyspark 的 toPandas() 错误:“int"对象不可迭代

我有一个 pyspark 数据框，我正在尝试使用 toPandas() 将其转换为 Pandas，但是我遇到了下面提到的错误. 我尝试了不同的选项，但得到了相同的错误: 1) 将数据限制为仅几条记录 2) 明确使用 collect()(我相信 toPandas() 固有地使用) 探索了许多关于 SO 的帖子，但 AFAIK 没有一个有 toPandas() 问题. 我的数据帧 ..

发布时间：2021-11-14 23:49:21 pandas apache-spark pyspark apache-zeppelin Python

apache-zeppelin相关内容