apache-zeppelin 第6页 - IT屋-程序员软件开发技术分享社区

将 UDF 从 Scala 注册到 SqlContext 以在 PySpark 中使用

是否可以注册用 Scala 编写的 UDF(或函数)以在 PySpark 中使用?例如: val mytable = sc.parallelize(1 to 2).toDF("spam")mytable.registerTempTable("mytable")def addOne(m: Integer): Integer = m + 1//垃圾邮件:1, 2 在 Scala 中，现在可以执行以 ..

发布时间：2021-11-14 23:49:18 scala apache-spark pyspark user-defined-functions apache-zeppelin 其他开发

Spark + s3 - 错误 - java.lang.ClassNotFoundException:找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我有一个 spark ec2 集群，我正在从 Zeppelin 笔记本提交 pyspark 程序.我已经加载了 hadoop-aws-2.7.3.jar 和 aws-java-sdk-1.11.179.jar 并将它们放在 spark 实例的/opt/spark/jars 目录中.我得到一个 java.lang.NoClassDefFoundError: com/amazonaws/AmazonS ..

发布时间：2021-11-14 23:49:15 apache-spark amazon-s3 pyspark apache-zeppelin 其他开发

如何在 Zeppelin 的 javascript 中将变量放入 z ZeppelinContext 中?

在 Scala 和 Python 中: z.put("varname", 变量) 但在 javascript 中我得到(在控制台中) Uncaught ReferenceError: z is not defined 我真正想做的是在 Zeppelin 中使用 z.angular("varname") 从 Scala 代码访问 javascript 变量，但我没有运气:( 在一个单元 ..

发布时间：2021-11-14 23:49:12 angularjs scala apache-zeppelin 其他开发

如何从 Zeppelin 中的控制台流接收器获取输出?

我正在努力让 console 接收器与从 Zeppelin 运行时的 PySpark 结构化流.基本上，我没有看到任何结果打印到屏幕上，也没有看到我找到的任何日志文件. 我的问题: 有没有人有将 PySpark 结构化流与接收器一起使用的工作示例，该接收器产生在 Apache Zeppelin 中可见的输出?理想情况下，它还可以使用套接字源，因为这很容易测试. 我正在使用: U ..

发布时间：2021-11-14 23:49:09 apache-spark pyspark apache-zeppelin spark-structured-streaming 其他开发

Zeppelin:Scala Dataframe 到 python

如果我有一个带有 DataFrame 的 Scala 段落，我可以与 python 共享和使用它.(据我所知，pyspark 使用 py4j) 我试过这个: Scala 段落: x.printSchemaz.put("xtable", x ) Python 段落: %pyspark将 numpy 导入为 np将熊猫导入为 pd导入 matplotlib.pyplot 作为 plt ..

发布时间：2021-11-14 23:49:06 python apache-spark pyspark apache-zeppelin Python

在 spark.SQL DataFrame 和 pandas DataFrame 之间转换

可以吗转换自到pd.DataFrame 在 %pyspark 环境下? 解决方案尝试: spark_df.toPandas() toPandas() 返回此 DataFrame 的内容作为 Pandas pandas.DataFrame.仅当 Pandas 已安装且可用时才可用. 如果你想要相反的: spark_df = createDataFrame(panda ..

发布时间：2021-11-14 23:49:03 apache-spark apache-spark-sql apache-zeppelin 其他开发

Spark DataFrame 过滤:保留属于列表的元素

我在 Zeppelin 笔记本上使用 Spark 1.5.1 和 Scala. 我有一个 DataFrame，其中有一列名为 userID 的 Long 类型. 我总共有大约 400 万行和 200,000 个唯一用户 ID. 我还有一个要排除的 50,000 个用户 ID 的列表. 我可以轻松构建要保留的用户 ID 列表. 删除属于要排除的用户的所有行的最佳方法是什么? ..

发布时间：2021-11-14 22:41:57 scala apache-spark dataframe apache-spark-sql apache-zeppelin 其他开发

Spark 1.6:过滤由 describe() 生成的 DataFrames

当我在 DataFrame 上调用 describe 函数时出现问题: val statsDF = myDataFrame.describe() 调用描述函数产生以下输出: statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string] 我可以通过调用statsDF.show() 正常显示statsDF ..

发布时间：2021-11-14 22:38:53 apache-spark apache-spark-sql apache-zeppelin 其他开发

Scala 和 Spark UDF 函数

我制作了一个简单的 UDF 来转换或从 spark 中临时表中的时间字段中提取一些值.我注册了该函数，但是当我使用 sql 调用该函数时，它会抛出 NullPointerException.下面是我的函数和执行过程.我正在使用齐柏林飞艇.奇怪的是，这是昨天工作，但今天早上停止工作. 功能 def convert( time:String ) : String = {val sdf = ne ..

发布时间：2021-11-14 22:38:16 scala apache-spark apache-spark-sql apache-zeppelin 其他开发

Apache Zeppelin &Spark Streaming:Twitter 示例仅适用于本地

我刚刚从 http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程"部分).我现在遇到的问题是该应用程序似乎只能在本地工作.如果我将 Spark 解释器设置“master"从“local[*]"更改为“spark://master:7077"，当我执行相同的 SQL 语句时，应用程序将不再产生任何结果.我做错了什么吗?我已经重新启 ..

发布时间：2021-11-14 22:35:49 apache-spark apache-spark-sql spark-streaming apache-zeppelin 其他开发

apache zeppelin 已启动，但在 localhost:8080 中出现连接错误

在 Ubuntu 14 上成功构建 apache zepellin 后，我启动了 zeppelin 并显示已成功启动，但是当我转到 localhost:8080 时，Firefox 显示无法连接错误，就像它没有启动一样，但是当我从终端检查 Zeppelin 状态时，它说运行，而且我只是复制了配置文件模板，所以配置文件是默认的更新将端口更改为 8090 ，这是配置文件，但结果没有变化 ..

发布时间：2021-11-14 22:35:13 apache-spark apache-spark-sql apache-zeppelin 其他开发

SQL 中的 Zeppelin 动态表单下拉值

我的 Zeppelin 笔记本中有一个下拉元素 val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) 我想在我的 sql 中使用这个变量 instrument 的值.例如，我在笔记本中的下一段包含 %sql select * from table_name where ite ..

发布时间：2021-11-14 22:31:24 apache-spark apache-spark-sql apache-zeppelin dynamic-forms 其他开发

在 Zeppelin 中使用 %pyspark 解释器注册表时，我无法访问 %sql 中的表

我使用的是 Zeppelin 0.5.5.我在这里为 python 找到了这个代码/示例，因为我无法使用 %pyspark http://www.makedatauseful.com/python-spark-sql-zeppelin-tutorial/.我感觉他的 %pyspark 示例有效，因为如果您使用原始的 %spark zeppelin 教程，“银行"表已经创建. 此代码在笔记本中 ..

发布时间：2021-11-14 22:31:05 apache-spark-sql apache-zeppelin 其他开发

在 Spark 中读取 Avro 文件

我已将 avro 文件读入 spark RDD，需要将其转换为 sql 数据帧.我该怎么做. 这是我目前所做的. import org.apache.avro.generic.GenericRecord导入 org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}导入 org.apache.hadoop.io.NullWritableval ..

发布时间：2021-11-14 22:30:30 scala apache-spark apache-spark-sql apache-zeppelin 其他开发

使用 Zeppelin 将 Spark DataFrame 从 Python 迁移到 Scala

我在 Zeppelin 的 Python 段落中创建了一个 spark DataFrame. sqlCtx = SQLContext(sc)spDf = sqlCtx.createDataFrame(df) 和 df 是一个 Pandas 数据框 print(type(df)) 我想要做的是将 spDf 从一个 Py ..

发布时间：2021-11-14 22:22:13 python scala apache-spark apache-spark-sql apache-zeppelin Python

Apache zeppelin 教程，错误“找不到 sql 解释器"

在“Zeppelin 教程"笔记本中，我无法使用 %sql 解释器.它将输出“sql interpreter not found".但是 spark 命令工作正常，以及 %md 和 %sh. 这是日志: ERROR [2015-10-20 10:13:35,045] ({qtp885851948-51} NotebookServer.java[runParagraph]:615) - ..

发布时间：2021-11-14 22:07:50 apache-spark-sql apache-zeppelin 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手，我想完成一个简单的练习，我将把 csv 文件从 Pandas 转换为 Spark 数据框，然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..

发布时间：2021-11-14 22:02:34 apache-spark pyspark apache-spark-sql apache-zeppelin 其他开发

从 Apache SQL Spark 中删除临时表

我在 Apache Spark 中有 registertemptable，使用下面的 Zeppelin: val hvacText = sc.textFile("...")case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String)val hvac ..

发布时间：2021-11-14 21:40:42 scala apache-spark apache-spark-sql apache-zeppelin 其他开发

在 spark.SQL DataFrame 和 pandas DataFrame 之间转换

可以吗转换自到pd.DataFrame 在 %pyspark 环境下? 解决方案尝试: spark_df.toPandas() toPandas() 返回此 DataFrame 的内容作为 Pandas pandas.DataFrame.仅当 Pandas 已安装且可用时才可用. 如果你想要相反的: spark_df = createDataFrame(panda ..

发布时间：2021-11-14 21:27:37 apache-spark apache-spark-sql apache-zeppelin 其他开发

如何将 mllib 矩阵转换为 spark 数据帧?

我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame，每个值位于单独的列中并调用 z.show(). 但是，查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来 ..

发布时间：2021-11-14 21:02:28 scala apache-spark matrix apache-spark-mllib apache-zeppelin 其他开发

apache-zeppelin相关内容