bigdata相关内容

在按窗口分区/分组的时间窗口上聚合

我是新来的火花和学习. 我有这个火花数据框.我想按日期排序并获取按“ID1"、“ID2"和“record_type"分区的最新记录. 我的输入就像 data = [(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、“医院"、无、“IN"),(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、无、“基金会"、“IN")、(“AC ..

如何在解析期间获取无效数据的计数

我们正在使用 spark 来解析一个大的 csv 文件,其中可能包含无效数据.我们希望将有效数据保存到数据存储中,同时返回我们导入了多少有效数据和多少无效数据. 我想知道我们如何在 spark 中做到这一点,读取数据时的标准方法是什么? 我目前的方法使用 Accumulator,但由于 Accumulator 在 spark 中的工作方式,它并不准确. //我们定义case类CSVI ..
发布时间:2021-11-14 23:16:20 其他开发

SparkSQL RDBMS 还是 NOSQL?

最近,当我们遇到这个问题时,我正在和我的朋友讨论 SparkSQL 的功能.它们是 ACID 事务吗?SparkSQL 是否遵循 CAP 定理? 我对这个领域有点陌生,帮帮我.提前致谢. 解决方案 SparkSQL 是一种查询语言,而不是像 Hive 或 MYSQL 那样的存储.虽然它可以注册可供其他人使用的表,但它只是临时的.SparkSQL 支持底层数据库支持的内容. ..
发布时间:2021-11-14 23:00:31 其他开发

使用特殊格式压缩的 Spark 阅读

我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩,第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作 隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma ..
发布时间:2021-11-14 22:59:24 其他开发

获取异常:java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;) 使用数据帧时

我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是,如果我只使用 RDD 而不是数据帧,那么相同的 pom 和设置不会出现此类错误.另外,在浏览其他有相同错误的帖子时,有人 ..
发布时间:2021-11-14 22:56:43 其他开发

如何优化下面的火花代码(scala)?

我有一些大文件(19GB、40GB 等).我需要对这些文件执行以下算法: 读取文件 按 1 列排序 取 1st 70% 的数据: a) 取列子集的所有不同记录 b) 将其写入训练文件 取最后 30% 的数据: a) 取列子集的所有不同记录 b) 将其写入测试文件 我尝试在 spark 中运行以下代码(使用 Scala). import scala.c ..

SPARK read.json 抛出 java.io.IOException: 换行前字节太多

我在读取一个 6gb 的大单行 json 文件时遇到以下错误: 作业因阶段失败而中止:阶段 0.0 中的任务 5 失败 1 次,最近一次失败:阶段 0.0 中的任务 5.0 丢失(TID 5,本地主机):java.io.IOException:换行前的字节太多: 2147483648 spark 不会读取带有新行的 json 文件,因此整个 6 GB json 文件都在一行上: jf = s ..
发布时间:2021-11-14 22:42:27 其他开发

有谁知道我如何在 R 中处理大数据?

在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率,但是它在几天内运行速度太慢,有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text ..
发布时间:2021-11-14 22:35:52 其他开发

如何验证历史数据?

目前我们正在使用日历实例读取日期,以使用 sparksql 选择最后一个月的记录.现在我们需要: 如果前一天添加了额外的事件,我们还必须能够手动插入摘要开始和结束日期,以防我们需要手动重新运行前一个时间段的作业:例如:手动重新运行表可能如下所示: rprtng_period_type_cd summary_start_date summary_end_date summary_iv男 2018- ..
发布时间:2021-11-14 22:13:30 其他开发

Apache Spark:在 SparkSql 中,sql 是否容易受到 Sql 注入

场景: 假设Hive中有一个表,它使用下面的Apache Spark中的SparkSql进行查询,其中表名作为参数传递并连接到查询. 对于非分布式系统,我对 SQL-Injection 漏洞有基本的了解,并且在 JDBC 上下文中了解 createStatement/preparedStatement 在这种情况下的用法. 但是在sparksql的情况下这个场景呢,这段代码容易受 ..
发布时间:2021-11-14 22:02:55 其他开发

火花&Scala:saveAsTextFile() 异常

我是 Spark & 的新手Scala 和我在调用 saveAsTextFile() 后出现异常.希望有人能帮忙... 这是我的 input.txt: Hello World,我是一名程序员Hello World,我是程序员 这是在 CMD 上运行“spark-shell"后的信息: C:\Users\Nhan Tran>spark-shell将默认日志级别设置为“警告".要调整日志记 ..
发布时间:2021-11-14 21:57:39 其他开发