apache-spark-sql相关内容

Spark DataFrame 过滤:保留属于列表的元素

我在 Zeppelin 笔记本上使用 Spark 1.5.1 和 Scala. 我有一个 DataFrame,其中有一列名为 userID 的 Long 类型. 我总共有大约 400 万行和 200,000 个唯一用户 ID. 我还有一个要排除的 50,000 个用户 ID 的列表. 我可以轻松构建要保留的用户 ID 列表. 删除属于要排除的用户的所有行的最佳方法是什么? ..

Scala 和 Spark UDF 函数

我制作了一个简单的 UDF 来转换或从 spark 中临时表中的时间字段中提取一些值.我注册了该函数,但是当我使用 sql 调用该函数时,它会抛出 NullPointerException.下面是我的函数和执行过程.我正在使用齐柏林飞艇.奇怪的是,这是昨天工作,但今天早上停止工作. 功能 def convert( time:String ) : String = {val sdf = ne ..
发布时间:2021-11-14 23:51:56 其他开发

Apache Zeppelin &Spark Streaming:Twitter 示例仅适用于本地

我刚刚从 http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程"部分).我现在遇到的问题是该应用程序似乎只能在本地工作.如果我将 Spark 解释器设置“master"从“local[*]"更改为“spark://master:7077",当我执行相同的 SQL 语句时,应用程序将不再产生任何结果.我做错了什么吗?我已经重新启 ..

apache zeppelin 已启动,但在 localhost:8080 中出现连接错误

在 Ubuntu 14 上成功构建 apache zepellin 后,我启动了 zeppelin 并显示已成功启动,但是当我转到 localhost:8080 时,Firefox 显示无法连接错误,就像它没有启动一样,但是当我从终端检查 Zeppelin 状态时,它说运行,而且我只是复制了配置文件模板,所以配置文件是默认的 更新 将端口更改为 8090 ,这是配置文件,但结果没有变化 ..
发布时间:2021-11-14 23:51:41 其他开发

在 Zeppelin 中使用 %pyspark 解释器注册表时,我无法访问 %sql 中的表

我使用的是 Zeppelin 0.5.5.我在这里为 python 找到了这个代码/示例,因为我无法使用 %pyspark http://www.makedatauseful.com/python-spark-sql-zeppelin-tutorial/.我感觉他的 %pyspark 示例有效,因为如果您使用原始的 %spark zeppelin 教程,“银行"表已经创建. 此代码在笔记本中 ..
发布时间:2021-11-14 23:51:29 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..

当两个ID在Scala中具有相同的最高价格时,以较小的ID获得最高价格

我有一个数据框调用 productPrice 有列 ID 和价格,我想得到价格最高的 ID,如果两个 ID 的最高价格相同,我只得到 ID 号较小的那个.我用 valhighestprice = productPrice.orderBy(asc("ID")).orderBy(desc("price")).limit(1)但是我得到的结果不是ID较小的那个,而是ID较大的那个.我不知道我的逻辑 ..
发布时间:2021-11-14 23:33:12 其他开发