apache-zeppelin相关内容
在 zeppelin 上使用 spark 时出现奇怪的错误.我使用它们时找不到导入的类.代码示例是: %spark导入 java.io.Serializable导入 java.text.{ParseException, SimpleDateFormat}导入 java.util.{Calendar, SimpleTimeZone}class Pos(val pos: String) extend
..
我尝试构建从 github 下载的 zeppelin-0.7.0 master 分支,但失败了.构建命令: mvn package -Pyarn -Pbuild-distr -Pspark-2.0 -Dspark.version=2.0.1 -Phadoop-2.6 -Dhadoop.version=2.6.0 -Pscala-2.11 -Ppyspark -DskipTests -X 输出
..
我遇到的第一个问题是我无法在不指定版本标签的情况下拉取基本图像,这没什么大不了的......但我觉得很奇怪,在那之后 docker pull apache/zeppelin:0.8.2 在那之后,我能够获得图像,但我尝试将其运行为: docker run -p 8080:8080 apache/zeppelin:0.8.2 或 docker run -p 8080:8080 --rm -
..
使用来自主要下载的 Zeppelin 0.7.2 二进制文件和 Spark 2.1.0 w/Hadoop 2.6,以下段落: val df = spark.read.parquet(DATA_URL).filter(FILTER_STRING).na.fill("") 产生以下内容: java.lang.NoSuchMethodError: com.fasterxml.jackson.mod
..
我已经部署了 zeppelin 0.6 并在 Jdbc 解释器下配置了 hive. 尝试执行 %hive显示数据库 抛出: org.apache.hive.jdbc.HiveDriver 类 java.lang.ClassNotFoundExceptionjava.net.URLClassLoader.findClass(URLClassLoader.java:381)java.l
..
我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake,但似乎无法成功导入模块.例如 %pyspark从 delta.tables 导入 * 失败并出现以下错误: ModuleNotFoundError: 没有名为“delta"的模块 但是,使用delta格式保存/读取数据帧是没有问题的.如果使用scala spark %spark 可以成功加
..
我正在尝试从源代码构建 Apache zeppelin.但它在 "zeppelin-web" 处中断并出现以下错误 [ERROR] 无法在项目 zeppelin-web 上执行目标 com.github.eirslett:frontend-maven-plugin:0.0.23:bower (bower install):无法运行任务:'bower --allow-root 安装'失败.(错误代
..
我竭尽全力让 Apache Zeppelin 在我的 linux VM 上运行.我正在关注本教程: http://madhukaudantha.blogspot.ca/2015/03/building-apache-zeppelin.html 我做了以下事情: git clone 到机器 现在正在尝试运行“mvn clean package" 我收到以下错误摘要,我真的需
..
我通过 spark-ec2 脚本设置了 aws ec2 集群. 我想配置 Zeppelin,以便我可以在 Zeppelin 本地编写 Scala 代码并在集群上运行它(通过 master).此外,我希望能够访问我的 s3 存储桶. 我关注了 本指南 和 另一个 但是我似乎无法从 zeppelin 到我的集群运行 Scala 代码. 我在本地安装了 Zeppelin mvn in
..
在 Zeppelin 中运行 Spark 平分 kmmeans 算法. //我使用TF-IDF算法转换我的数据val idf = 新的 IDF(minFreq).fit(data)val hashIDF_features = idf.transform(dbTF)//并将转换后的数据解析为聚类算法.val bkm = new BisectingKMeans().setK(100).setMaxI
..
我使用 在 Windows 上安装了 Zeppelin本教程和this.我还安装了 java 8 以避免出现问题. 我现在可以启动 Zeppelin 服务器,并且我正在尝试运行此代码 - %pysparka=5*4打印(“值= %i" % (a))版本 我收到此错误,与 py4j 相关.我之前遇到过这个库的其他问题(与 此处 相同),为了避免它们,我将计算机上 Zeppelin 和 Sp
..
我们正在尝试在带有 Vagrant 的 4 节点 CentOS 6 集群上建立 Zeppelin 的沙箱/评估实例,并且在构建过程中遇到了一些依赖问题.这是我们正在运行的高级脚本. (已尝试以特权帐户和用户身份运行此程序,结果相同.) 重新创建步骤 从二进制安装 Hadoop 2.7.0 从二进制安装 Spark 1.4.0 从二进制安装 Maven 3.3.3 运行以
..
我正在尝试在 Zeppelin 0.8.0 中使用一些带有 Spark 解释器的 Scala 代码: %spark导入 scala.beans.BeanProperty类节点(@BeanProperty val 父级:选项[节点]){} 但是进口好像没有考虑 import scala.beans.BeanProperty:14:错误:未找到:类型 BeanProperty@BeanPrope
..
在 这个 问题 我被告知如何使用 zeppelin 的 z.show 命令打印数据帧.除了引理列中出现“WrappedArray"外,这很有效: 我已经试过了: z.show(dfLemma.select(concat_ws(",", $"lemma"))) 但它只是给了我一个单词列表,格式不正确,我还希望在我的输出中包含种族主义列.非常感谢任何帮助. 解决方案 以下是格式化数组
..
我想使用笔记本 Zeppelin 在 Redshift 中探索我的数据.一个带有 Spark 的小型 EMR 集群正在运行.我正在加载 databricks 的 spark-redshift 库 %depz.reset()z.load("com.databricks:spark-redshift_2.10:0.6.0") 然后 import org.apache.spark.sql.Data
..
我正在尝试在 kubernetes 集群中从我的 zeppelin 部署中运行 spark 作业.我还有一个在不同命名空间上运行的 spark shuffle 服务(daemonset - v2.2.0-k8s).这是我的 spark 配置(在 zeppelin pod 上设置) --conf spark.kubernetes.executor.docker.image=--conf spark
..
我有一个安装了 Spark 2.0 和 Zeppelin 0.6.1 的集群.由于 TwitterUtils.scala 类已从 Spark 项目移至 Apache Bahir,我无法再在我的 Zeppelin 笔记本中使用 TwitterUtils. 这是我的笔记本的片段: 依赖加载: %depz.resetz.load("org.apache.bahir:spark-stream
..
我有一个 DataFrame,我将它映射到 () 的 RDD 中以测试 SVMModel. 我使用的是 Zeppelin 和 Spark 1.6.1 这是我的代码: val loadedSVMModel = SVMModel.load(sc, pathToSvmModel)//清除默认阈值.已加载SVMModel.clearThreshold()//计算测试集的原始分数.val sc
..
如何降级spark版本?其他解决方案是什么?我必须使用 spark 会话将我的配置单元表连接到 spark.但是 zeppelin 不支持 spark 版本. 解决方案 这里有两个原因. [1] Zeppelin 0.7.2 将 spark 2.2+ 标记为不受支持的版本. https://github.com/apache/zeppelin/blob/v0.7.2/spark
..
我尝试将我的 apache zeppelin 与我的 hive Metastore 连接起来.我使用 zeppelin 0.7.3,所以没有只有 jdbc 的 hive 解释器.我已将 hive-site.xml 复制到 zeppelin conf 文件夹,但我不知道如何创建新的 hive 解释器. 我也尝试通过 spark 的 hive 上下文访问 hive 表,但是当我尝试这种方式时,我
..