bigdata相关内容

使用自定义分隔符将数据加载到 Hive

我正在尝试在 hive 中创建一个内部(托管)表来存储我的增量日志数据.表格是这样的: CREATE TABLE 日志 (foo INT, bar STRING, created_date TIMESTAMP)行格式分隔以“"结尾的字段存储为文本文件; 我需要定期将数据加载到这个表中. LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE ..
发布时间:2021-12-15 18:46:06 其他开发

oozie 中 Hive 操作的作业队列

我有一个 oozie 工作流程.我正在使用 提交所有配置单元操作 mapred.job.queue.name${queueName} 但是对于少数 hive 操作,启动的作业不在指定队列中;它在默认队列中调用. 请告诉我这种行为背后的原因和解决方案. 解决方案 A.Oozie 细节 Oozie 将“常规"Hadoop 属性传播到“常规"MapRed ..
发布时间:2021-12-15 18:31:47 其他开发

Hbase 快速统计行数

现在我像这样在 ResultScanner 上实现行计数 for (Result rs = scanr.next(); rs != null; rs =scanner.next()) {数字++;} 如果数据达到百万次计算量很大,我想实时计算不想用Mapreduce 如何快速计算行数. 解决方案 在 HBase 中使用 RowCounterRowCounter 是一个 mapre ..
发布时间:2021-12-15 18:26:27 其他开发

KMeans 的不平衡因子?

编辑:这个问题的答案在:Spark 中的总和变坏 在计算 Kmeans 的成本中,我们看到了如何计算他的 KMeans 的成本模型.我想知道我们是否能够计算出不平衡因子? 如果Spark没有提供这样的功能,有什么简单的方法可以实现吗? 我找不到不平衡因子的参考,但它应该类似于 Yael 的 unbalanced_factor(我的评论): //@hist:分配给一个簇的点数// ..
发布时间:2021-12-14 09:46:39 AI人工智能

在 R 中聚类非常大的数据集

我有一个由 70,000 个数值组成的数据集,代表从 0 到 50 的距离,我想对这些数字进行聚类;但是,如果我正在尝试经典的聚类方法,那么我将不得不建立一个 70,000X70,000 的距离矩阵来表示我的数据集中每两个数字之间的距离,这不适合内存,所以我想知道是否有有什么聪明的方法可以解决这个问题而无需进行分层抽样?我也在 R 中尝试过 bigmemory 和 big analytics 库, ..

按 ID 删除数百万行的最佳方法

我需要从我的 PG 数据库中删除大约 200 万行.我有一个需要删除的 ID 列表.但是,我尝试这样做的任何方式都需要几天时间. 我尝试将它们放在一个表中,并以 100 为一组进行.4 天后,这仍然在运行,仅删除了 2972​​68 行.(我必须从 ID 表中选择 100 个 ID,删除该列表中的 where,从 ids 表中删除我选择的 100 个). 我试过了: DELETE F ..

在 spark join 中,表顺序和猪一样重要吗?

有关Spark - 加入 2 PairRDD 元素 在 pig 中进行常规 join 时,join 中的最后一个表不会被带入内存而是通过流式传输,因此如果 A 每个键的基数较小而 B 的基数较大,则执行 join 明显更好A、B比join A by B,从性能角度(避免溢出和OOM) spark 中有类似的概念吗?我没有看到任何这样的建议,想知道这怎么可能?在我看来,实现与 pig 中 ..
发布时间:2021-11-28 21:41:48 其他开发

使用 Kinesis Analytics 构建实时会话

某处是否有示例,或者有人可以解释如何使用 Kinesis Analytics 构建实时会话.(即会话) 这里提到这可能:https://aws.amazon.com/blogs/aws/amazon-kinesis-analytics-process-streaming-data-in-real-time-with-sql/在自定义窗口的讨论中但没有给出示例. 这通常是在 SQL 中使 ..
发布时间:2021-11-27 10:24:24 其他开发

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost ..
发布时间:2021-11-27 10:06:47 其他开发

在 python 和 numpy 中处理大数据,内存不足,如何将部分结果保存在光盘上?

我正在尝试在 python 中实现具有 20 万多个数据点的 1000 维数据的算法.我想使用 numpy、scipy、sklearn、networkx 和其他有用的库.我想执行所有点之间的成对距离等操作并对所有点进行聚类.我已经实现了以合理的复杂性执行我想要的工作的算法,但是当我尝试将它们扩展到我的所有数据时,我的 RAM 用完了.当然,我这样做,为 200k+ 数据的成对距离创建矩阵需要大量内 ..
发布时间:2021-11-18 01:15:12 Python

Lambda 架构 - 为什么是批处理层

我正在研究 lambda 架构并了解如何使用它来构建容错大数据系统. 我想知道当所有内容都可以存储在实时视图中并从中生成结果时,批处理层有什么用?是不是因为实时存储不能用于存储所有数据,那么它就不会是实时的,因为检索数据所花费的时间取决于存储数据所花费的空间. 解决方案 为什么要使用批处理层 为了节省时间和金钱! 它基本上有两个功能, 管理主数据集(假设是不可变 ..
发布时间:2021-11-17 02:39:56 其他开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..
发布时间:2021-11-15 00:00:47 其他开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..
发布时间:2021-11-14 23:36:47 其他开发