apache-spark-sql相关内容
我在 Zeppelin 笔记本上使用 Spark 1.5.1 和 Scala. 我有一个 DataFrame,其中有一列名为 userID 的 Long 类型. 我总共有大约 400 万行和 200,000 个唯一用户 ID. 我还有一个要排除的 50,000 个用户 ID 的列表. 我可以轻松构建要保留的用户 ID 列表. 删除属于要排除的用户的所有行的最佳方法是什么?
..
当我在 DataFrame 上调用 describe 函数时出现问题: val statsDF = myDataFrame.describe() 调用描述函数产生以下输出: statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string] 我可以通过调用statsDF.show() 正常显示statsDF
..
我制作了一个简单的 UDF 来转换或从 spark 中临时表中的时间字段中提取一些值.我注册了该函数,但是当我使用 sql 调用该函数时,它会抛出 NullPointerException.下面是我的函数和执行过程.我正在使用齐柏林飞艇.奇怪的是,这是昨天工作,但今天早上停止工作. 功能 def convert( time:String ) : String = {val sdf = ne
..
我刚刚从 http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程"部分).我现在遇到的问题是该应用程序似乎只能在本地工作.如果我将 Spark 解释器设置“master"从“local[*]"更改为“spark://master:7077",当我执行相同的 SQL 语句时,应用程序将不再产生任何结果.我做错了什么吗?我已经重新启
..
在 Ubuntu 14 上成功构建 apache zepellin 后,我启动了 zeppelin 并显示已成功启动,但是当我转到 localhost:8080 时,Firefox 显示无法连接错误,就像它没有启动一样,但是当我从终端检查 Zeppelin 状态时,它说运行,而且我只是复制了配置文件模板,所以配置文件是默认的 更新 将端口更改为 8090 ,这是配置文件,但结果没有变化
..
我使用的是 Zeppelin 0.5.5.我在这里为 python 找到了这个代码/示例,因为我无法使用 %pyspark http://www.makedatauseful.com/python-spark-sql-zeppelin-tutorial/.我感觉他的 %pyspark 示例有效,因为如果您使用原始的 %spark zeppelin 教程,“银行"表已经创建. 此代码在笔记本中
..
我的 Zeppelin 笔记本中有一个下拉元素 val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) 我想在我的 sql 中使用这个变量 instrument 的值.例如,我在笔记本中的下一段包含 %sql select * from table_name where ite
..
我已将 avro 文件读入 spark RDD,需要将其转换为 sql 数据帧.我该怎么做. 这是我目前所做的. import org.apache.avro.generic.GenericRecord导入 org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}导入 org.apache.hadoop.io.NullWritableval
..
我在 Zeppelin 的 Python 段落中创建了一个 spark DataFrame. sqlCtx = SQLContext(sc)spDf = sqlCtx.createDataFrame(df) 和 df 是一个 Pandas 数据框 print(type(df)) 我想要做的是将 spDf 从一个 Py
..
在“Zeppelin 教程"笔记本中,我无法使用 %sql 解释器.它将输出“sql interpreter not found".但是 spark 命令工作正常,以及 %md 和 %sh. 这是日志: ERROR [2015-10-20 10:13:35,045] ({qtp885851948-51} NotebookServer.java[runParagraph]:615) -
..
我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl
..
我在 Apache Spark 中有 registertemptable,使用下面的 Zeppelin: val hvacText = sc.textFile("...")case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String)val hvac
..
可以吗 转换自到pd.DataFrame 在 %pyspark 环境下? 解决方案 尝试: spark_df.toPandas() toPandas() 返回此 DataFrame 的内容作为 Pandas pandas.DataFrame.仅当 Pandas 已安装且可用时才可用. 如果你想要相反的: spark_df = createDataFrame(panda
..
我有一个 input.txt 文件.数据如下. 1 1383260400000 0 0.081362623511258821 1383260400000 39 0.14186425470242922 0.1567870050390246 0.16093793691701822 0.0522748485285761620285761620303081 1383261000000 0 0.13658
..
我使用的是 spark 1.6.1 版本.我需要在循环中执行数据帧. for ( i
..
我正在传递变量,但它没有传递值. 我在这里填充变量值. val Temp = sqlContext.read.parquet("Tabl1.parquet")Temp.registerTempTable("temp")val year = sqlContext.sql("""select value from Temp where name="YEAR"""")年.show() 这里是
..
复制来自这个问题的示例:作为概念示例,如果我有两个数据框: words = [the, quick, fox, a, brown, fox]stopWords = [the, a] 然后我希望以任何顺序输出: words - stopWords = [quick, brown, fox, fox] ExceptAll 可以在 2.4 中做到这一点,但我无法升级.链接问题中的答案特定于数据帧
..
对于下面的数据集,为了获得 Col1 的总汇总值,我做了 import org.apache.spark.sql.functions._val totaldf = df.groupBy("Col1").agg(lit("Total").as("Col2"), sum("price").as("price"), sum("displayPrice").as(“显示价格")) 然后与 合并 d
..
我使用的是 spark-sql 2.4.x 版本,Cassandra-3.x 版本使用的是 datastax-spark-cassandra-connector.与 kafka 一起. 我有一个来自 kafka 主题的财务数据的场景.data(基础数据集)包含 companyId, year , prev_year 字段信息. 如果列 year === prev_year 那么我需要加
..
我有一个数据框调用 productPrice 有列 ID 和价格,我想得到价格最高的 ID,如果两个 ID 的最高价格相同,我只得到 ID 号较小的那个.我用 valhighestprice = productPrice.orderBy(asc("ID")).orderBy(desc("price")).limit(1)但是我得到的结果不是ID较小的那个,而是ID较大的那个.我不知道我的逻辑
..