apache-spark-sql相关内容
在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{
..
我有一个低于 Cols 的数据集. df.show();+--------+---------+---------+---------+---------+|列 1 |Col2 |花费1 |支出2 |花费3 |+--------+---------+---------+---------+---------+|值 1 |Cvalue1 |123 |2254 |22 ||值1 |Cvalue2 |
..
我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因.
..
我正在尝试使用 SBT 读取 XML 文件,但在编译时遇到问题. build.sbt name:= "First Spark"版本:=“1.0"组织:=“in.goai"斯卡拉版本:=“2.11.8"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"libraryDependencies += "org.a
..
我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称,例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register("
..
这是一段有效的代码,但在我尝试从不同的 scala 对象 创建 Sparksession 后突然无法工作 val b = a.filter { x =>(!x._2._1.isEmpty) &&(!x._2._2.isEmpty) }val primary_ke = b.map(rec => (rec._1.split(",")(0))).distinctfor (i
..
使用https://stackoverflow.com/a/32407543/5379015中提供的解决方案我尝试重新创建相同的查询,但使用编程语法而不是 Dataframe API,如下所示: import org.apache.spark.{SparkContext, SparkConf}导入 org.apache.spark.sql.hive.HiveContext导入 org.apach
..
我正在使用 Apache Spark 1.5.1 并尝试连接到名为 clinton.db 的本地 SQLite 数据库.从数据库表创建数据框工作正常,但是当我对创建的对象执行某些操作时,我收到以下错误消息,其中显示“SQL 错误或丢失的数据库(连接已关闭)".有趣的是,我还是得到了手术的结果.知道我可以做些什么来解决问题,即避免错误吗? spark-shell 的启动命令: ../spar
..
我之前遇到了一个障碍,试图在 Spark Dataframes 中进行一些转换. 假设我有一个架构数据框: root|-- 坐标:数组(可为空 = 真)||-- 元素:double (containsNull = true)|-- 用户 ID: 字符串 (nullable = true)|-- pubuid: string (nullable = true) 我想去掉坐标中的数组(双精度
..
我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描
..
我想知道与完整 RDD/DF 的运行时间相比,在对 RDD/DF 进行采样时 Spark 的运行时间是多少.我不知道这是否有所不同,但我目前使用的是 Java + Spark 1.5.1 + Hadoop 2.6. JavaRDDrdd = sc.textFile(HdfsDirectoryPath()).map(new Function() {@覆盖公共行调用(字符串行)抛出异常{String
..
到目前为止,我一直在使用 JDBC 连接到 Spark 的 Thrift Server,并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server),但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说,我很想发表这个声明 va
..
根据我对spark sql的调查,发现不能直接连接2个以上的表,我们必须使用子查询才能使其工作.所以我使用子查询并能够加入 3 个表: 使用以下查询: "选择姓名、年龄、性别、dpi.msisdn、订阅类型、maritalStatus, isHighARPU, ipAddress, startTime, endTime, isRoaming,dpi.totalCount, dpi.we
..
我正在调用以下内容: propertiesDF.select(col("timestamp"), col("coordinates")(0) as "lon",col("坐标")(1) 为"纬度",col("properties.tide (above mllw)") as "tideAboveMllw",col("properties.wind speed") 作为 "windSpeed")
..
我一直看到 Apache Spark 安排了一系列阶段,其中涉及固定的 200 个任务.由于这种情况不断发生在许多不同的工作中,我猜这与 Spark 配置之一有关.有什么建议可能是这种配置吗? 解决方案 200 是 shuffle 期间使用的默认分区数,它由 spark.sql.shuffle.partitions 控制.它的值可以在运行时使用 SQLContext.setConf 设置:
..
编辑: 我正在开发一个 Spark 应用程序,该应用程序从多个结构化架构中读取数据,并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时,我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子,但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手
..
我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File..
..
我不拥有的某些数据带有一个应该是 timestamp 的字段,但有时似乎不符合 ISO 8601 标准. 在我的代码中,我定义了一个架构,然后当 Spark SQL 解析我的 json 数据时,我收到以下错误: java.lang.IllegalArgumentException: 2016-10-07T11:15Z 源数据如下: "transaction_date_time": "2
..
我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象,如图 在本教程中. 但是当我尝试获取 DataFrame 对象的计数时,它显示为 0 这是我的文件, employee.csv: empid,empname1000,汤姆2000,杰瑞 我加载了上面的文件, val empDf = sqlContext.read.format("com.databr
..
我一直在尝试在 pyspark 中运行此代码. sqlContext = HiveContext(sc)datumDF = sqlContext.createDataFrame(datumX, schema) 但是一直收到这个警告: Exception: ("You must build Spark with Hive.Export 'SPARK_HIVE=true' and run bui
..