bigdata相关内容
我是新来的火花和学习. 我有这个火花数据框.我想按日期排序并获取按“ID1"、“ID2"和“record_type"分区的最新记录. 我的输入就像 data = [(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、“医院"、无、“IN"),(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、无、“基金会"、“IN")、(“AC
..
我们正在使用 spark 来解析一个大的 csv 文件,其中可能包含无效数据.我们希望将有效数据保存到数据存储中,同时返回我们导入了多少有效数据和多少无效数据. 我想知道我们如何在 spark 中做到这一点,读取数据时的标准方法是什么? 我目前的方法使用 Accumulator,但由于 Accumulator 在 spark 中的工作方式,它并不准确. //我们定义case类CSVI
..
最近,当我们遇到这个问题时,我正在和我的朋友讨论 SparkSQL 的功能.它们是 ACID 事务吗?SparkSQL 是否遵循 CAP 定理? 我对这个领域有点陌生,帮帮我.提前致谢. 解决方案 SparkSQL 是一种查询语言,而不是像 Hive 或 MYSQL 那样的存储.虽然它可以注册可供其他人使用的表,但它只是临时的.SparkSQL 支持底层数据库支持的内容.
..
我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩,第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作 隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma
..
我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是,如果我只使用 RDD 而不是数据帧,那么相同的 pom 和设置不会出现此类错误.另外,在浏览其他有相同错误的帖子时,有人
..
我试图通过仅获取包含数组中的单词的行来过滤数据集.我正在使用 contains 方法,它适用于字符串但不适用于数组.下面是代码 val dataSet = spark.read.option("header","true").option("inferschema","true").json(path).na.drop.cache()val威胁_path = spark.read.textFil
..
我想使用 spark rdd 加入 3 个表.我使用 spark sql 实现了我的目标,但是当我尝试使用 Rdd 加入它时,我没有得到想要的结果.下面是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"====$"df2.act_id").join(movieD
..
我已尝试此查询以从linkedin 数据中获得所需的经验. 数据集过滤数据 = 火花.sql("select full_name ,experience from (select *, expand(experience['title']) exp from tempTable )"+ " a where lower(exp) like '%developer%'"); 但是我收到了这个
..
我有一些大文件(19GB、40GB 等).我需要对这些文件执行以下算法: 读取文件 按 1 列排序 取 1st 70% 的数据: a) 取列子集的所有不同记录 b) 将其写入训练文件 取最后 30% 的数据: a) 取列子集的所有不同记录 b) 将其写入测试文件 我尝试在 spark 中运行以下代码(使用 Scala). import scala.c
..
1) 初始过滤的 RDD 为空值. val rddWithOutNull2 = rddSlices.filter(x => x(0) != null) 2) 然后把这个RDD转换成Row的RDD 3) 使用 Scala 将 RDD 转换为 Dataframe 后: val df = spark.createDataFrame(rddRow,schema)df.printSchema()
..
有没有办法在选择多个元素的sql spark中按表分组我正在使用的代码: val df = spark.read.json("//path")df.createOrReplaceTempView("GETBYID") 现在按喜欢分组: val sqlDF = spark.sql("SELECT count(customerId) FROM GETBYID group by customerI
..
我正在将 csvs 读入 Spark,并将架构设置为所有 DecimalType(10,0) 列.当我查询数据时,出现以下错误: NumberFormatException: Infinite 或 NaN 如果我的数据框中有 NaN/null/infinite 值,我想将它们设置为 0.我该怎么做?这是我尝试加载数据的方式: var cases = spark.read.option("he
..
我在读取一个 6gb 的大单行 json 文件时遇到以下错误: 作业因阶段失败而中止:阶段 0.0 中的任务 5 失败 1 次,最近一次失败:阶段 0.0 中的任务 5.0 丢失(TID 5,本地主机):java.io.IOException:换行前的字节太多: 2147483648 spark 不会读取带有新行的 json 文件,因此整个 6 GB json 文件都在一行上: jf = s
..
有人可以帮助指导我需要提交 from_unixtime 什么数据类型或格式才能使 spark from_unixtime() 函数工作吗? 当我尝试以下操作时,它可以工作,但不响应 current_timestamp. from_unixtime(current_timestamp()) 回复如下: fromunixtime(currenttimestamp(),yyyy-MM-dd
..
在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率,但是它在几天内运行速度太慢,有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text
..
spark 数据帧中的 like() 是否有任何计数器方法(类似于 notLike())? 或者除了使用传统的 SQL 查询之外还有其他方法吗? 我只想做与以下相反的事情: df.where(col("_c2").like("XY6%")).show(5) 解决方案 它奏效了 :) 我不得不使用否定运算符 (~) 而不是“not"关键字. df.where(~ col("
..
现在有如下的 JSON 数据 {"Id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"package":"com.browser7","activetime":1205000}]}{"Id":12,"data":[{"packa
..
目前我们正在使用日历实例读取日期,以使用 sparksql 选择最后一个月的记录.现在我们需要: 如果前一天添加了额外的事件,我们还必须能够手动插入摘要开始和结束日期,以防我们需要手动重新运行前一个时间段的作业:例如:手动重新运行表可能如下所示: rprtng_period_type_cd summary_start_date summary_end_date summary_iv男 2018-
..
场景: 假设Hive中有一个表,它使用下面的Apache Spark中的SparkSql进行查询,其中表名作为参数传递并连接到查询. 对于非分布式系统,我对 SQL-Injection 漏洞有基本的了解,并且在 JDBC 上下文中了解 createStatement/preparedStatement 在这种情况下的用法. 但是在sparksql的情况下这个场景呢,这段代码容易受
..
我是 Spark & 的新手Scala 和我在调用 saveAsTextFile() 后出现异常.希望有人能帮忙... 这是我的 input.txt: Hello World,我是一名程序员Hello World,我是程序员 这是在 CMD 上运行“spark-shell"后的信息: C:\Users\Nhan Tran>spark-shell将默认日志级别设置为“警告".要调整日志记
..