bigdata 第4页 - IT屋-程序员软件开发技术分享社区

Hadoop 中的 Sort Comparator 和 Group Comparator 有什么区别?

Hadoop 中Sort Comparator 和Group Comparator 有什么区别? 解决方案要了解GroupComparator，看我对这个问题的回答- 分组比较器有什么用在 hadoop map reduce SortComparator:用于定义地图输出键的排序方式摘自《Hadoop - 权威指南》一书: 键的排序顺序如下: 如果属性 m ..

发布时间：2021-12-15 19:10:23 hadoop bigdata 其他开发

使用自定义分隔符将数据加载到 Hive

我正在尝试在 hive 中创建一个内部(托管)表来存储我的增量日志数据.表格是这样的: CREATE TABLE 日志 (foo INT, bar STRING, created_date TIMESTAMP)行格式分隔以“"结尾的字段存储为文本文件；我需要定期将数据加载到这个表中. LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE ..

发布时间：2021-12-15 18:46:06 hadoop hive loaddata bigdata 其他开发

oozie 中 Hive 操作的作业队列

我有一个 oozie 工作流程.我正在使用提交所有配置单元操作 mapred.job.queue.name${queueName} 但是对于少数 hive 操作，启动的作业不在指定队列中；它在默认队列中调用. 请告诉我这种行为背后的原因和解决方案. 解决方案 A.Oozie 细节 Oozie 将“常规"Hadoop 属性传播到“常规"MapRed ..

发布时间：2021-12-15 18:31:47 hadoop hive bigdata oozie 其他开发

Hbase 快速统计行数

现在我像这样在 ResultScanner 上实现行计数 for (Result rs = scanr.next(); rs != null; rs =scanner.next()) {数字++；} 如果数据达到百万次计算量很大，我想实时计算不想用Mapreduce 如何快速计算行数. 解决方案在 HBase 中使用 RowCounterRowCounter 是一个 mapre ..

发布时间：2021-12-15 18:26:27 hadoop hbase bigdata 其他开发

KMeans 的不平衡因子?

编辑:这个问题的答案在:Spark 中的总和变坏在计算 Kmeans 的成本中，我们看到了如何计算他的 KMeans 的成本模型.我想知道我们是否能够计算出不平衡因子? 如果Spark没有提供这样的功能，有什么简单的方法可以实现吗? 我找不到不平衡因子的参考，但它应该类似于 Yael 的 unbalanced_factor(我的评论): //@hist:分配给一个簇的点数// ..

发布时间：2021-12-14 09:46:39 apache-spark machine-learning pyspark k-means bigdata AI人工智能

我有一个由 70,000 个数值组成的数据集，代表从 0 到 50 的距离，我想对这些数字进行聚类；但是，如果我正在尝试经典的聚类方法，那么我将不得不建立一个 70,000X70,000 的距离矩阵来表示我的数据集中每两个数字之间的距离，这不适合内存，所以我想知道是否有有什么聪明的方法可以解决这个问题而无需进行分层抽样?我也在 R 中尝试过 bigmemory 和 big analytics 库， ..

发布时间：2021-12-14 09:42:31 r machine-learning bigdata cluster-analysis data-mining AI人工智能

R 中非常大的数据集处理和机器学习的推荐包

R 似乎真的是为处理可以完全存入内存的数据集而设计的.推荐哪些 R 包用于无法拉入内存的超大数据集的信号处理和机器学习? 如果 R 只是错误的方法，我愿意接受其他强大的免费建议(例如 scipy，如果有一些处理非常大数据集的好方法) 解决方案查看 ..

发布时间：2021-12-14 09:38:14 r machine-learning signal-processing bigdata AI人工智能

按 ID 删除数百万行的最佳方法

我需要从我的 PG 数据库中删除大约 200 万行.我有一个需要删除的 ID 列表.但是，我尝试这样做的任何方式都需要几天时间. 我尝试将它们放在一个表中，并以 100 为一组进行.4 天后，这仍然在运行，仅删除了 297268 行.(我必须从 ID 表中选择 100 个 ID，删除该列表中的 where，从 ids 表中删除我选择的 100 个). 我试过了: DELETE F ..

发布时间：2021-12-05 21:52:51 sql postgresql bigdata sql-delete postgresql-performance 其他开发

PostgreSQL中计算和节省空间

我在 pg 中有一张桌子，如下所示: 创建表 t (a BIGSERIAL NOT NULL, -- 8 bb SMALLINT, -- 2 bc SMALLINT, -- 2 bd 真实，-- 4 be 真实，-- 4 bf 实数，-- 4 bg 整数, -- 4 bh 真实，-- 4 b我真的，-- 4 bj SMALLINT, -- 2 bk 整数, -- 4 bl 整数, -- 4 bm ..

发布时间：2021-12-05 21:01:43 postgresql database-design storage bigdata 其他开发

如何在不耗尽内存的情况下从 sql 查询创建大型 Pandas 数据框?

我无法从 MS SQL Server 数据库查询超过 500 万条记录的表.我想选择所有记录，但是在将大量数据选择到内存中时，我的代码似乎失败了. 这有效: 将pandas.io.sql导入为psqlsql = "SELECT TOP 1000000 * FROM MyTable"数据 = psql.read_frame(sql, cnxn) ...但这不起作用: sql = "SEL ..

发布时间：2021-12-03 09:00:12 python sql pandas bigdata Python

在 spark join 中，表顺序和猪一样重要吗?

有关Spark - 加入 2 PairRDD 元素在 pig 中进行常规 join 时，join 中的最后一个表不会被带入内存而是通过流式传输，因此如果 A 每个键的基数较小而 B 的基数较大，则执行 join 明显更好A、B比join A by B，从性能角度(避免溢出和OOM) spark 中有类似的概念吗?我没有看到任何这样的建议，想知道这怎么可能?在我看来，实现与 pig 中 ..

发布时间：2021-11-28 21:41:48 hadoop apache-spark apache-pig bigdata 其他开发

使用 Kinesis Analytics 构建实时会话

某处是否有示例，或者有人可以解释如何使用 Kinesis Analytics 构建实时会话.(即会话) 这里提到这可能:https://aws.amazon.com/blogs/aws/amazon-kinesis-analytics-process-streaming-data-in-real-time-with-sql/在自定义窗口的讨论中但没有给出示例. 这通常是在 SQL 中使 ..

发布时间：2021-11-27 10:24:24 amazon-kinesis bigdata 其他开发

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

我正在 AWS EMR 上运行一个 5 节点 Spark 集群，每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件，最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件，但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost ..

发布时间：2021-11-27 10:06:47 apache-spark emr amazon-emr bigdata 其他开发

在 python 和 numpy 中处理大数据，内存不足，如何将部分结果保存在光盘上?

我正在尝试在 python 中实现具有 20 万多个数据点的 1000 维数据的算法.我想使用 numpy、scipy、sklearn、networkx 和其他有用的库.我想执行所有点之间的成对距离等操作并对所有点进行聚类.我已经实现了以合理的复杂性执行我想要的工作的算法，但是当我尝试将它们扩展到我的所有数据时，我的 RAM 用完了.当然，我这样做，为 200k+ 数据的成对距离创建矩阵需要大量内 ..

发布时间：2021-11-18 01:15:12 python arrays numpy scipy bigdata Python

Lambda 架构 - 为什么是批处理层

我正在研究 lambda 架构并了解如何使用它来构建容错大数据系统. 我想知道当所有内容都可以存储在实时视图中并从中生成结果时，批处理层有什么用?是不是因为实时存储不能用于存储所有数据，那么它就不会是实时的，因为检索数据所花费的时间取决于存储数据所花费的空间. 解决方案为什么要使用批处理层为了节省时间和金钱！它基本上有两个功能，管理主数据集(假设是不可变 ..

发布时间：2021-11-17 02:39:56 hadoop lambda architecture bigdata 其他开发

从 windows java 应用程序访问虚拟框 hbase

嗨，我是 hbase 的新手，正在尝试练习它.首先，我想描述一下系统配置.背景: 我使用的是 Windows 7 并安装了 Oracle Virtual Box.然后在 Virtual Box 上安装了 ubuntu 服务器，之后我在 ubuntu 上安装了 hbase0.98-hadoop2-bin.tar.gz.我已经在独立模式下配置了 hbase.我的 hbase-site.xml 文 ..

发布时间：2021-11-15 00:08:43 java hadoop hbase bigdata apache-zookeeper Java开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据，但是我在将“恢复"功能引入该项目时遇到了一些问题，因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..

发布时间：2021-11-15 00:00:47 bigdata apache-zookeeper apache-storm apache-kafka 其他开发

AWS 上的 Zookeeper 集群

我正在尝试在 3 台 AWS ec2 机器上设置 zookeeper 集群，但不断收到相同的错误: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - 无法在选举地址/xxx.31.34.102:3888 打开到 3 的频道java.net ..

发布时间：2021-11-14 23:59:51 amazon-web-services amazon-ec2 apache-zookeeper bigdata 其他开发

如何从默认设置中设置 spoutconfig?

我正在尝试使用图形 API 获取 fb 页面数据.每个帖子的大小超过 1MB，其中 kafka 默认 fetch.message 为 1MB.通过在 kafa consumer.properties 和 server.properties 文件中添加以下行，我已将 kafka 属性从 1MB 更改为 3MB. fetch.message.max.bytes=3048576 (consumer.p ..

发布时间：2021-11-14 23:39:00 apache-kafka apache-storm kafka-consumer-api bigdata 其他开发

在kafka-storm中无法将偏移数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据，但是我在将“恢复"功能引入该项目时遇到了一些问题，因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout: ..

发布时间：2021-11-14 23:36:47 bigdata apache-zookeeper apache-storm apache-kafka 其他开发

bigdata相关内容

Hadoop 中的 Sort Comparator 和 Group Comparator 有什么区别?

使用自定义分隔符将数据加载到 Hive

oozie 中 Hive 操作的作业队列

Hbase 快速统计行数

KMeans 的不平衡因子?

在 R 中聚类非常大的数据集

R 中非常大的数据集处理和机器学习的推荐包

按 ID 删除数百万行的最佳方法

PostgreSQL中计算和节省空间

如何在不耗尽内存的情况下从 sql 查询创建大型 Pandas 数据框?

在 spark join 中，表顺序和猪一样重要吗?

使用 Kinesis Analytics 构建实时会话

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

在 python 和 numpy 中处理大数据，内存不足，如何将部分结果保存在光盘上?

Lambda 架构 - 为什么是批处理层

从 windows java 应用程序访问虚拟框 hbase

在kafka-storm中无法将偏移数据写入zookeeper

AWS 上的 Zookeeper 集群

如何从默认设置中设置 spoutconfig?

在kafka-storm中无法将偏移数据写入zookeeper