bigdata 第5页 - IT屋-程序员软件开发技术分享社区

在按窗口分区/分组的时间窗口上聚合

我是新来的火花和学习. 我有这个火花数据框.我想按日期排序并获取按“ID1"、“ID2"和“record_type"分区的最新记录. 我的输入就像 data = [(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、“医院"、无、“IN")，(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、无、“基金会"、“IN")、(“AC ..

发布时间：2021-11-14 23:23:06 python-3.x apache-spark pyspark apache-spark-sql bigdata 其他开发

如何在解析期间获取无效数据的计数

我们正在使用 spark 来解析一个大的 csv 文件，其中可能包含无效数据.我们希望将有效数据保存到数据存储中，同时返回我们导入了多少有效数据和多少无效数据. 我想知道我们如何在 spark 中做到这一点，读取数据时的标准方法是什么? 我目前的方法使用 Accumulator，但由于 Accumulator 在 spark 中的工作方式，它并不准确. //我们定义case类CSVI ..

发布时间：2021-11-14 23:16:20 scala apache-spark spark-dataframe bigdata 其他开发

SparkSQL RDBMS 还是 NOSQL?

最近，当我们遇到这个问题时，我正在和我的朋友讨论 SparkSQL 的功能.它们是 ACID 事务吗?SparkSQL 是否遵循 CAP 定理? 我对这个领域有点陌生，帮帮我.提前致谢. 解决方案 SparkSQL 是一种查询语言，而不是像 Hive 或 MYSQL 那样的存储.虽然它可以注册可供其他人使用的表，但它只是临时的.SparkSQL 支持底层数据库支持的内容. ..

发布时间：2021-11-14 23:00:31 sql hive apache-spark-sql bigdata nosql 其他开发

使用特殊格式压缩的 Spark 阅读

我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩，第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma ..

发布时间：2021-11-14 22:59:24 scala apache-spark spark-dataframe bigdata 其他开发

获取异常:java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;) 使用数据帧时

我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是，如果我只使用 RDD 而不是数据帧，那么相同的 pom 和设置不会出现此类错误.另外，在浏览其他有相同错误的帖子时，有人 ..

发布时间：2021-11-14 22:56:43 scala apache-spark spark-dataframe bigdata 其他开发

基于Apache Spark中数组中的单词过滤DataFrame

我试图通过仅获取包含数组中的单词的行来过滤数据集.我正在使用 contains 方法，它适用于字符串但不适用于数组.下面是代码 val dataSet = spark.read.option("header","true").option("inferschema","true").json(path).na.drop.cache()val威胁_path = spark.read.textFil ..

发布时间：2021-11-14 22:55:12 scala apache-spark dataframe apache-spark-sql bigdata 其他开发

如何使用 Spark Scala 加入 3 个 RDD

我想使用 spark rdd 加入 3 个表.我使用 spark sql 实现了我的目标，但是当我尝试使用 Rdd 加入它时，我没有得到想要的结果.下面是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"====$"df2.act_id").join(movieD ..

发布时间：2021-11-14 22:53:41 apache-spark hadoop apache-spark-sql bigdata rdd 其他开发

如何转换json数组到spark sql中的csv

我已尝试此查询以从linkedin 数据中获得所需的经验. 数据集过滤数据 = 火花.sql("select full_name ,experience from (select *, expand(experience['title']) exp from tempTable )"+ " a where lower(exp) like '%developer%'"); 但是我收到了这个 ..

发布时间：2021-11-14 22:51:37 java apache-spark apache-spark-sql bigdata Java开发

如何优化下面的火花代码(scala)?

我有一些大文件(19GB、40GB 等).我需要对这些文件执行以下算法: 读取文件按 1 列排序取 1st 70% 的数据: a) 取列子集的所有不同记录 b) 将其写入训练文件取最后 30% 的数据: a) 取列子集的所有不同记录 b) 将其写入测试文件我尝试在 spark 中运行以下代码(使用 Scala). import scala.c ..

发布时间：2021-11-14 22:50:23 scala apache-spark optimization apache-spark-sql bigdata 其他开发

Spark Dataframe count 函数和更多函数抛出 IndexOutOfBoundsException

1) 初始过滤的 RDD 为空值. val rddWithOutNull2 = rddSlices.filter(x => x(0) != null) 2) 然后把这个RDD转换成Row的RDD 3) 使用 Scala 将 RDD 转换为 Dataframe 后: val df = spark.createDataFrame(rddRow,schema)df.printSchema() ..

发布时间：2021-11-14 22:50:11 scala apache-spark apache-spark-sql bigdata spark-dataframe 其他开发

在 spark.sql 中使用 group by 选择多个元素

有没有办法在选择多个元素的sql spark中按表分组我正在使用的代码: val df = spark.read.json("//path")df.createOrReplaceTempView("GETBYID") 现在按喜欢分组: val sqlDF = spark.sql("SELECT count(customerId) FROM GETBYID group by customerI ..

发布时间：2021-11-14 22:47:10 scala apache-spark apache-spark-sql bigdata 其他开发

如何在 Spark Scala 中将空 NAN 或无限值替换为默认值

我正在将 csvs 读入 Spark，并将架构设置为所有 DecimalType(10,0) 列.当我查询数据时，出现以下错误: NumberFormatException: Infinite 或 NaN 如果我的数据框中有 NaN/null/infinite 值，我想将它们设置为 0.我该怎么做?这是我尝试加载数据的方式: var cases = spark.read.option("he ..

发布时间：2021-11-14 22:44:10 scala apache-spark apache-spark-sql bigdata 其他开发

SPARK read.json 抛出 java.io.IOException: 换行前字节太多

我在读取一个 6gb 的大单行 json 文件时遇到以下错误: 作业因阶段失败而中止:阶段 0.0 中的任务 5 失败 1 次，最近一次失败:阶段 0.0 中的任务 5.0 丢失(TID 5，本地主机):java.io.IOException:换行前的字节太多: 2147483648 spark 不会读取带有新行的 json 文件，因此整个 6 GB json 文件都在一行上: jf = s ..

发布时间：2021-11-14 22:42:27 json apache-spark pyspark spark-dataframe bigdata 其他开发

spark unix_timestamp 数据类型不匹配

有人可以帮助指导我需要提交 from_unixtime 什么数据类型或格式才能使 spark from_unixtime() 函数工作吗? 当我尝试以下操作时，它可以工作，但不响应 current_timestamp. from_unixtime(current_timestamp()) 回复如下: fromunixtime(currenttimestamp(),yyyy-MM-dd ..

发布时间：2021-11-14 22:36:05 apache-spark apache-spark-sql distributed-computing unix-timestamp bigdata 其他开发

有谁知道我如何在 R 中处理大数据?

在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文，有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率，但是它在几天内运行速度太慢，有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text ..

发布时间：2021-11-14 22:35:52 r apache-spark-sql bigdata tidytext 其他开发

pyspark:数据帧中 like() 方法的计数器部分

spark 数据帧中的 like() 是否有任何计数器方法(类似于 notLike())? 或者除了使用传统的 SQL 查询之外还有其他方法吗? 我只想做与以下相反的事情: df.where(col("_c2").like("XY6%")).show(5) 解决方案它奏效了 :) 我不得不使用否定运算符 (~) 而不是“not"关键字. df.where(~ col(" ..

发布时间：2021-11-14 22:24:33 apache-spark spark-dataframe pyspark-sql bigdata 其他开发

如何使用 Spark SQL 解析对象的 JSON 数组

现在有如下的 JSON 数据 {"Id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"package":"com.browser7","activetime":1205000}]}{"Id":12,"data":[{"packa ..

发布时间：2021-11-14 22:20:28 json scala apache-spark apache-spark-sql bigdata 其他开发

如何验证历史数据?

目前我们正在使用日历实例读取日期，以使用 sparksql 选择最后一个月的记录.现在我们需要: 如果前一天添加了额外的事件，我们还必须能够手动插入摘要开始和结束日期，以防我们需要手动重新运行前一个时间段的作业:例如:手动重新运行表可能如下所示: rprtng_period_type_cd summary_start_date summary_end_date summary_iv男 2018- ..

发布时间：2021-11-14 22:13:30 scala apache-spark-sql bigdata 其他开发

Apache Spark:在 SparkSql 中，sql 是否容易受到 Sql 注入

场景: 假设Hive中有一个表，它使用下面的Apache Spark中的SparkSql进行查询，其中表名作为参数传递并连接到查询. 对于非分布式系统，我对 SQL-Injection 漏洞有基本的了解，并且在 JDBC 上下文中了解 createStatement/preparedStatement 在这种情况下的用法. 但是在sparksql的情况下这个场景呢，这段代码容易受 ..

发布时间：2021-11-14 22:02:55 hadoop apache-spark hive apache-spark-sql bigdata 其他开发

火花&Scala:saveAsTextFile() 异常

我是 Spark & 的新手Scala 和我在调用 saveAsTextFile() 后出现异常.希望有人能帮忙... 这是我的 input.txt: Hello World，我是一名程序员Hello World，我是程序员这是在 CMD 上运行“spark-shell"后的信息: C:\Users\Nhan Tran>spark-shell将默认日志级别设置为“警告".要调整日志记 ..

发布时间：2021-11-14 21:57:39 scala apache-spark hadoop apache-spark-sql bigdata 其他开发

bigdata相关内容