bigdata相关内容

使用 Kinesis Analytics 构建实时会话

某处是否有示例,或者有人可以解释如何使用 Kinesis Analytics 构建实时会话.(即会话) 这里提到这可能:https://aws.amazon.com/blogs/aws/amazon-kinesis-analytics-process-streaming-data-in-real-time-with-sql/在自定义窗口的讨论中但没有给出示例. 这通常是在 SQL 中使 ..
发布时间:2021-11-27 10:24:24 其他开发

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost ..
发布时间:2021-11-27 10:06:47 其他开发

在 python 和 numpy 中处理大数据,内存不足,如何将部分结果保存在光盘上?

我正在尝试在 python 中实现具有 20 万多个数据点的 1000 维数据的算法.我想使用 numpy、scipy、sklearn、networkx 和其他有用的库.我想执行所有点之间的成对距离等操作并对所有点进行聚类.我已经实现了以合理的复杂性执行我想要的工作的算法,但是当我尝试将它们扩展到我的所有数据时,我的 RAM 用完了.当然,我这样做,为 200k+ 数据的成对距离创建矩阵需要大量内 ..
发布时间:2021-11-18 01:15:12 其他开发

Lambda 架构 - 为什么是批处理层

我正在研究 lambda 架构并了解如何使用它来构建容错大数据系统. 我想知道当所有内容都可以存储在实时视图中并从中生成结果时,批处理层有什么用?是不是因为实时存储不能用于存储所有数据,那么它就不会是实时的,因为检索数据所花费的时间取决于存储数据所花费的空间. 解决方案 为什么要使用批处理层 为了节省时间和金钱! 它基本上有两个功能, 管理主数据集(假设是不可变 ..
发布时间:2021-11-17 02:39:56 其他开发

从 windows java 应用程序访问虚拟框 hbase

嗨,我是 hbase 的新手,正在尝试练习它.首先,我想描述一下系统配置.背景: 我使用的是 Windows 7 并安装了 Oracle Virtual Box.然后在 Virtual Box 上安装了 ubuntu 服务器,之后我在 ubuntu 上安装了 hbase0.98-hadoop2-bin.tar.gz.我已经在独立模式下配置了 hbase.我的 hbase-site.xml 文 ..
发布时间:2021-11-15 00:08:43 其他开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..
发布时间:2021-11-15 00:00:47 其他开发

AWS 上的 Zookeeper 集群

我正在尝试在 3 台 AWS ec2 机器上设置 zookeeper 集群,但不断收到相同的错误: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - 无法在选举地址/xxx.31.34.102:3888 打开到 3 的频道java.net ..
发布时间:2021-11-14 23:59:51 其他开发

如何从默认设置中设置 spoutconfig?

我正在尝试使用图形 API 获取 fb 页面数据.每个帖子的大小超过 1MB,其中 kafka 默认 fetch.message 为 1MB.通过在 kafa consumer.properties 和 server.properties 文件中添加以下行,我已将 kafka 属性从 1MB 更改为 3MB. fetch.message.max.bytes=3048576 (consumer.p ..
发布时间:2021-11-14 23:39:00 其他开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..
发布时间:2021-11-14 23:36:47 其他开发

在按窗口分区/分组的时间窗口上聚合

我是新来的火花和学习. 我有这个火花数据框.我想按日期排序并获取按“ID1"、“ID2"和“record_type"分区的最新记录. 我的输入就像 data = [(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、“医院"、无、“IN"),(“ACC.PXP"、“7246"、“2018-10-18T16:20:00"、无、“基金会"、“IN")、(“AC ..
发布时间:2021-11-14 23:23:06 其他开发

如何在解析期间获取无效数据的计数

我们正在使用 spark 来解析一个大的 csv 文件,其中可能包含无效数据.我们希望将有效数据保存到数据存储中,同时返回我们导入了多少有效数据和多少无效数据. 我想知道我们如何在 spark 中做到这一点,读取数据时的标准方法是什么? 我目前的方法使用 Accumulator,但由于 Accumulator 在 spark 中的工作方式,它并不准确. //我们定义case类CSVI ..
发布时间:2021-11-14 23:16:20 其他开发

SparkSQL RDBMS 还是 NOSQL?

最近,当我们遇到这个问题时,我正在和我的朋友讨论 SparkSQL 的功能.它们是 ACID 事务吗?SparkSQL 是否遵循 CAP 定理? 我对这个领域有点陌生,帮帮我.提前致谢. 解决方案 SparkSQL 是一种查询语言,而不是像 Hive 或 MYSQL 那样的存储.虽然它可以注册可供其他人使用的表,但它只是临时的.SparkSQL 支持底层数据库支持的内容. ..
发布时间:2021-11-14 23:00:31 其他开发

使用特殊格式压缩的 Spark 阅读

我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩,第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作 隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma ..
发布时间:2021-11-14 22:59:24 其他开发

获取异常:java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;) 使用数据帧时

我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是,如果我只使用 RDD 而不是数据帧,那么相同的 pom 和设置不会出现此类错误.另外,在浏览其他有相同错误的帖子时,有人 ..
发布时间:2021-11-14 22:56:43 其他开发

基于Apache Spark中数组中的单词过滤DataFrame

我试图通过仅获取包含数组中的单词的行来过滤数据集.我正在使用 contains 方法,它适用于字符串但不适用于数组.下面是代码 val dataSet = spark.read.option("header","true").option("inferschema","true").json(path).na.drop.cache()val威胁_path = spark.read.textFil ..
发布时间:2021-11-14 22:55:12 其他开发

如何使用 Spark Scala 加入 3 个 RDD

我想使用 spark rdd 加入 3 个表.我使用 spark sql 实现了我的目标,但是当我尝试使用 Rdd 加入它时,我没有得到想要的结果.下面是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"====$"df2.act_id").join(movieD ..
发布时间:2021-11-14 22:53:41 其他开发

如何转换json数组到spark sql中的csv

我已尝试此查询以从linkedin 数据中获得所需的经验. 数据集过滤数据 = 火花.sql("select full_name ,experience from (select *, expand(experience['title']) exp from tempTable )"+ " a where lower(exp) like '%developer%'"); 但是我收到了这个 ..
发布时间:2021-11-14 22:51:37 其他开发

如何优化下面的火花代码(scala)?

我有一些大文件(19GB、40GB 等).我需要对这些文件执行以下算法: 读取文件 按 1 列排序 取 1st 70% 的数据: a) 取列子集的所有不同记录 b) 将其写入训练文件 取最后 30% 的数据: a) 取列子集的所有不同记录 b) 将其写入测试文件 我尝试在 spark 中运行以下代码(使用 Scala). import scala.c ..
发布时间:2021-11-14 22:50:23 其他开发