apache-spark-sql相关内容
我已经编写了一个数据集火花作业(批处理)代码来扁平化数据,运行正常,但当我尝试在火花流作业中使用相同的代码片段时,它抛出以下错误 必须使用WriteStream.start(); 执行具有流来源的查询 那么,有什么方法可以在流作业中展平嵌套的JSON吗? 样本输入嵌套JSON- { "name":" Akash", "age":26, "watches":{
..
我希望基于多个条件使用另外两列更新一列中的值。对于Eg-流如下: +---+---+----+---+ | A | B | C | D | +---+---+----+---+ | a | T | 10 | 0 | | a | T | 100| 0 | | a | L | 0 | 0 | | a | L | 1 | 0 |
..
我必须根据值列表将列添加到PySpark DataFrame。 a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) 我有一个名为Rating的列表,它是对每只宠物的评级。 rating = [5,4,1] 我需要向数据帧追加一个名为Rat
..
我们已尝试用方括号[column name]、单引号和双引号和反号将列名括起来,但都不起作用。 电光是否支持名称包含空格的列? 推荐答案 反引号似乎工作正常: scala> val df = sc.parallelize(Seq(("a", 1))).toDF("foo bar", "x") df: org.apache.spark.sql.DataFrame = [foo
..
我在 Spark shell 中运行此查询,但它给了我错误, sqlContext.sql(“从samplecsv中选择sal,其中sal 错误: java.lang.RuntimeException: [1.47] failure: ``)'' 预期但发现标识符 MAX 从samplecsv中选择sal,其中sal (从 samplecsv 中选择 MAX(sal))^在 s
..
我是 Spark-SQL 的新手.我在 Spark Dataframe 中有这样的信息 公司类型状态A X 完成完成A Z 完成C X 完成完成B Y 完成 我想显示如下 公司 X-type Y-type Z-typeA done done doneB 待定 已完成 待定C 已完成待定 我无法实现这是 Spark-SQL 请帮忙 解决方案 你可以groupby Company
..
我是 Spark 的新手,在使用 PySpark 或 Spark Sql 将以下输入数据帧转换为所需的输出 df(行到列)时需要帮助. 输入数据框- A B C D1 2 3 410 11 12 13……........... 所需的输出(转置)数据 A 1乙二C 3411乙 12C 1314………… 如果我可以根据我们的要求旋转输入数据(列)会更好. 解决方案 你可以做一个
..
我需要使用 Spark 和 Java 从 MariaDB 读取一个表. 我写了一个从数据库读取表数据的Java代码.连接建立成功,但是读取数据时出错.我正在尝试将表数据作为数据框读取.但是列名在结果中显示为列值.找到下面给出的代码: import java.io.IOException;导入 java.io.InputStream;导入 java.util.Properties;导入
..
我对 pyspark 很陌生,我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框,删除一些列,然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql
..
在 Scala 中,我可以使用 get(#) 或 getAs[Type](#) 从数据帧中获取值.在 pyspark 中应该怎么做? 我有一个两列 DataFrame:item(string) 和 salesNum(integers).我做了一个 groupby 和 mean 来获得这些数字的平均值,如下所示: saleDF.groupBy("salesNum").mean()).co
..
假设我有类似以下的数据: 索引 id 名称 value value2 value3 data1 val50 345 姓名1 1 99 23 3 661 12 姓名2 1 99 23 2 665 2 姓名6 1 99 23 7 66 我们如何在一个命令中删除所有行具有相同值的所有列,例如 (value, value2, value3)还是使用 python 的几个命令? 假设我们有许多列
..
PROBNORM:解释 SAS 中的 PROBNORM 函数返回标准正态分布的观测值小于或等于 x 的概率. pyspark中有没有等价的功能? 解决方案 恐怕PySpark中没有这样的实现方法. 但是,您可以利用 Pandas UDF 使用基本的 Python 包定义您自己的自定义函数!这里我们将使用 scipy.stats.norm 模块从标准正态分布中获取累积概率.
..
在 PySpark 中,我想计算两个数据帧向量之间的相关性,使用以下代码(我在导入 pyspark 或 createDataFrame 时没有任何问题): from pyspark.ml.linalg import Vectors从 pyspark.ml.stat 导入相关性导入pysparkspark = pyspark.sql.SparkSession.builder.master("loc
..
我有一个带有嵌套结构的 Spark Scala 数据框: |-- _History: struct (nullable = true)||-- 文章:数组 (nullable = true)|||-- 元素: struct (containsNull = true)||||-- Id: string (nullable = true)||||-- 时间戳:long (nullable = tr
..
我有 Cassandra 数据库,我通过 Apache Spark 使用 SparkSQL 从中分析了数据.现在我想将那些分析过的数据插入到 PostgreSQL 中.除了使用 PostgreSQL 驱动程序(我使用 postREST 和 Driver 我想知道是否有像 saveToCassandra() 这样的方法)之外,还有什么方法可以直接实现这一点吗? 解决方案 目前还没有将 RDD
..
我想将数据框的字符串列转换为列表.我可以从 Dataframe API 中找到 RDD,所以我尝试先将其转换回 RDD,然后将 toArray 函数应用于 RDD.在这种情况下,长度和 SQL 工作得很好.然而,我从 RDD 得到的结果在每个元素周围都有方括号,就像这样[A00001].我想知道是否有适当的方法将列转换为列表或删除方括号的方法. 任何建议将不胜感激.谢谢! 解决方案
..
我收到错误: org.apache.spark.sql.analysisexception:无法解析“年份" 我的输入数据: 1,2012-07-21,2014-04-09 我的代码: val sqlContext = new org.apache.spark.sql.SQLContext(sc)导入 sqlContext.implicits._导入 org.apache.spark.s
..
有没有办法将带有纳秒的时间戳值转换为 spark 中的时间戳.我从 csv 文件中获取输入,并且 timstamp 值的格式为12-12-2015 14:09:36.992415+01:00.这是我试过的代码. val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00"))val dateraw_df = sc.parallel
..
在 Spark 的 WebUI(端口 8080)和环境选项卡上,有以下设置: user.timezone 祖鲁语 你知道我如何/在哪里可以将其覆盖为 UTC? 环境细节: Spark 2.1.1 jre-1.8.0-openjdk.x86_64 没有 jdk EC2 亚马逊 Linux 编辑(有人回答了下面然后删除):https://www.timeanddate.co
..
我有一个具有以下架构的数据框 我的要求是在任何地址数组元素中过滤与给定字段(如城市)匹配的行.我可以访问单个字段,如 loyaltyMember.address[0].city,但我必须检查所有地址数组元素以查看是否存在匹配项.我如何在 spark sql 中实现这一点,我无法使用 array_contains 函数,因为数组是复杂类型 root|--loyaltyMember: stru
..