apache-zeppelin相关内容
我的 Zeppelin 笔记本中有一个下拉元素 val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) 我想在我的 sql 中使用这个变量 instrument 的值.例如,我在笔记本中的下一段包含 %sql select * from table_name where ite
..
我已将 avro 文件读入 spark RDD,需要将其转换为 sql 数据帧.我该怎么做. 这是我目前所做的. import org.apache.avro.generic.GenericRecord导入 org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}导入 org.apache.hadoop.io.NullWritableval
..
我的操作系统是 OS X 10.11.6.我正在运行 Spark 2.0、Zeppelin 0.6、Scala 2.11 当我在 Zeppelin 中运行此代码时,我收到了来自 Jackson 的异常.当我在 spark-shell 中运行此代码时 - 也不例外. val filestream = ssc.textFileStream("/Users/davidlaxer/first-ed
..
可以在 Zeppelin 上自定义皮肤吗?换句话说,用别的东西代替齐柏林飞艇的标志? 解决方案 是的,很有可能. 如您所知,Apache Zeppelin(孵化)是一个开源项目,因此只需: 从 github.com/apache/incubator-zeppelin 克隆它 在 zeppelin-web 子模块内进行修改 它是一个标准的 Angular Web 应用程
..
我使用的是 HDP 版本:2.6.4 您能否提供有关如何将库安装到 spark2 下的以下 python 目录的分步说明? sc.version(spark 版本)返回 res0: String = 2.2.0.2.6.4.0-91 spark2解释器名称和值如下 zeppelin.pyspark.python:/usr/local/Python-3.4.8/bin/python
..
我正在尝试使用 Zeppelin 笔记本创建多段仪表板.我希望使用仪表板的人只需输入一次某些参数.例如.如果我正在制作一个包含不同网站信息的仪表板,仪表板用户只需选择他们想要了解的特定网站一次,整个多段仪表板就会更新.这可能吗?如何在笔记本中设置这样的全局变量? 为了澄清,我打算用于 Zeppelin 的参数输入被称为 “动态表单". 解决方案 使用 z.put 和 z.get 可以
..
我正在 google dataproc 中创建一个具有以下特征的集群: Master Standard(1个master,N个worker)机器 n1-highmem-2(2 个 vCPU,13.0 GB 内存)主磁盘 250 GB工作节点 2机器类型 n1-highmem-2(2 个 vCPU,13.0 GB 内存)主磁盘大小 250 GB 我还在 Initialization action
..
我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本.为此,我使用了一个如下所示的 json 对象: [{"分类": "zeppelin-env",“特性": {},“配置":[{"分类": "出口",“特性": {"ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.S3NotebookRepo","
..
我在 Zeppelin 的 Python 段落中创建了一个 spark DataFrame. sqlCtx = SQLContext(sc)spDf = sqlCtx.createDataFrame(df) 和 df 是一个 Pandas 数据框 print(type(df)) 我想要做的是将 spDf 从一个 Py
..
我有 Amazon EMR Hadoop v2.6 集群和 Spark 1.4.1,以及 Yarn 资源管理器.我想在单独的机器上部署 Zeppelin,以便在没有作业运行时关闭 EMR 集群. 我尝试按照此处的说明操作 https://zeppelin.incubator.apache.org/docs/install/yarn_install.html收效甚微. 有人可以解开 Ze
..
我正在使用 zeppelins spark 解释器的隔离模式,在这种模式下,它将为 spark 集群中的每个笔记本启动一个新工作.我想在笔记本执行完成后通过 zeppelin 终止作业.为此,我做了 sc.stop 这停止了 sparkContext 并且作业也从火花集群停止.但是下次当我尝试运行笔记本时,它不会再次启动 sparkContext.那么该怎么做呢? 解决方案 这有点反直觉,
..
我已经安装了 Zeppelin 0.7.1.当我尝试执行示例 spark 程序(可用于 Zeppelin Tutorial 笔记本)时,出现以下错误 java.lang.NullPointerException在 org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38)在 org.apache.zeppelin.spark.Utils
..
我是齐柏林飞艇的新手.我有一个用例,其中我有一个 Pandas 数据框.我需要使用 zeppelin 的内置图表来可视化集合,我在这里没有明确的方法.我的理解是使用 zeppelin 我们可以可视化数据,如果它是 RDD 格式.所以,我想将 pandas 数据帧转换为 spark 数据帧,然后进行一些查询(使用 sql),我将进行可视化.首先,我尝试将 Pandas 数据帧转换为 spark 数据
..
我刚刚在我的 Mac (Yosemite 10.10.3) 上安装了以下内容: Oracle Java 1.8 更新 45 scala 2.11.6 spark 1.4(预编译版本:http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0-bin-hadoop2.6.tgz) 来自源代码的 zeppelin (https://github.com
..
我在 Zeppelin 中担任口译员.我正在使用 Spark2.0,我建立了一个会话:创建 解决方案 通常,您不应在 Zeppelin 中初始化 SparkSession 或 SparkContext.Zeppelin 笔记本配置为为您创建会话,其正确行为取决于使用提供的对象. 初始化您的 SparkSession 将破坏 Zeppelin 的核心功能,并且在最坏的情况下,多个 Sp
..
我已经使用 cloudera 设置了我的 hadoop.我想安装 zeppelin 以连接 hive 并为我的查询构建 UI.使用以下命令构建 zeppelin 命令时: sudo mvn clean package -Pspark-1.3 -Dspark.version=1.3.0 -Dhadoop.version=2.6.0-cdh5.4.7 -Phadoop-2.6 -Pyarn -Dsk
..
我尝试将我的笔记本保存在 GCS 和 GitHub 上,但没有成功. 我有以下错误: INFO [2020-07-23 19:54:59,790] ({qtp684874119-16} PluginManager.java[loadNotebookRepo]:60) - 加载 NotebookRepo 插件:org.apache.zeppelin.notebook.repo.GCSNote
..
我是 Apache Zeppelin 的新手.安装 0.8.0 并使用 7000 端口访问 Zeppelin.配置了几个路径,如下所述. JAVA_HOME:C:\Program Files\Java\jdk1.8.0_144HADOOP_HOME: C:\winutilsZEPPELIN_HOME: C:\zeppelin\zeppelin-0.8.0-bin-all\zeppelin-0
..
我正在编写代码,其中使用内部库和 %pyspark 解释器获取数据集.但是我无法将数据集传递给 %python 解释器.我尝试使用字符串变量并且它工作正常,但是对于数据集,我使用以下代码将数据集放在 zeppelin 上下文中 - z.put("input_data",input_data) 它抛出以下错误: AttributeError: 'DataFrame' 对象没有属性 '_g
..
我在纱线客户端模式下使用 Zeppelin 0.7.3 和 Spark 2.3.我的设置是: 火花: spark.driver.memory 4096mspark.driver.memoryOverhead 3072mspark.executor.memory 4096mspark.executor.memoryOverhead 3072mspark.executor.cores 3spa
..