bigdata相关内容
Hadoop 中Sort Comparator 和Group Comparator 有什么区别? 解决方案 要了解GroupComparator,看我对这个问题的回答- 分组比较器有什么用在 hadoop map reduce SortComparator:用于定义地图输出键的排序方式 摘自《Hadoop - 权威指南》一书: 键的排序顺序如下: 如果属性 m
..
我正在尝试在 hive 中创建一个内部(托管)表来存储我的增量日志数据.表格是这样的: CREATE TABLE 日志 (foo INT, bar STRING, created_date TIMESTAMP)行格式分隔以“"结尾的字段存储为文本文件; 我需要定期将数据加载到这个表中. LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE
..
我有一个 oozie 工作流程.我正在使用 提交所有配置单元操作 mapred.job.queue.name${queueName} 但是对于少数 hive 操作,启动的作业不在指定队列中;它在默认队列中调用. 请告诉我这种行为背后的原因和解决方案. 解决方案 A.Oozie 细节 Oozie 将“常规"Hadoop 属性传播到“常规"MapRed
..
现在我像这样在 ResultScanner 上实现行计数 for (Result rs = scanr.next(); rs != null; rs =scanner.next()) {数字++;} 如果数据达到百万次计算量很大,我想实时计算不想用Mapreduce 如何快速计算行数. 解决方案 在 HBase 中使用 RowCounterRowCounter 是一个 mapre
..
编辑:这个问题的答案在:Spark 中的总和变坏 在计算 Kmeans 的成本中,我们看到了如何计算他的 KMeans 的成本模型.我想知道我们是否能够计算出不平衡因子? 如果Spark没有提供这样的功能,有什么简单的方法可以实现吗? 我找不到不平衡因子的参考,但它应该类似于 Yael 的 unbalanced_factor(我的评论): //@hist:分配给一个簇的点数//
..
我有一个由 70,000 个数值组成的数据集,代表从 0 到 50 的距离,我想对这些数字进行聚类;但是,如果我正在尝试经典的聚类方法,那么我将不得不建立一个 70,000X70,000 的距离矩阵来表示我的数据集中每两个数字之间的距离,这不适合内存,所以我想知道是否有有什么聪明的方法可以解决这个问题而无需进行分层抽样?我也在 R 中尝试过 bigmemory 和 big analytics 库,
..
R 似乎真的是为处理可以完全存入内存的数据集而设计的.推荐哪些 R 包用于无法拉入内存的超大数据集的信号处理和机器学习? 如果 R 只是错误的方法,我愿意接受其他强大的免费建议(例如 scipy,如果有一些处理非常大数据集的好方法) 解决方案 查看
..
我需要从我的 PG 数据库中删除大约 200 万行.我有一个需要删除的 ID 列表.但是,我尝试这样做的任何方式都需要几天时间. 我尝试将它们放在一个表中,并以 100 为一组进行.4 天后,这仍然在运行,仅删除了 297268 行.(我必须从 ID 表中选择 100 个 ID,删除该列表中的 where,从 ids 表中删除我选择的 100 个). 我试过了: DELETE F
..
我在 pg 中有一张桌子,如下所示: 创建表 t (a BIGSERIAL NOT NULL, -- 8 bb SMALLINT, -- 2 bc SMALLINT, -- 2 bd 真实,-- 4 be 真实,-- 4 bf 实数,-- 4 bg 整数, -- 4 bh 真实,-- 4 b我真的,-- 4 bj SMALLINT, -- 2 bk 整数, -- 4 bl 整数, -- 4 bm
..
我无法从 MS SQL Server 数据库查询超过 500 万条记录的表.我想选择所有记录,但是在将大量数据选择到内存中时,我的代码似乎失败了. 这有效: 将pandas.io.sql导入为psqlsql = "SELECT TOP 1000000 * FROM MyTable"数据 = psql.read_frame(sql, cnxn) ...但这不起作用: sql = "SEL
..
有关Spark - 加入 2 PairRDD 元素 在 pig 中进行常规 join 时,join 中的最后一个表不会被带入内存而是通过流式传输,因此如果 A 每个键的基数较小而 B 的基数较大,则执行 join 明显更好A、B比join A by B,从性能角度(避免溢出和OOM) spark 中有类似的概念吗?我没有看到任何这样的建议,想知道这怎么可能?在我看来,实现与 pig 中
..
某处是否有示例,或者有人可以解释如何使用 Kinesis Analytics 构建实时会话.(即会话) 这里提到这可能:https://aws.amazon.com/blogs/aws/amazon-kinesis-analytics-process-streaming-data-in-real-time-with-sql/在自定义窗口的讨论中但没有给出示例. 这通常是在 SQL 中使
..
我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost
..
我正在尝试在 python 中实现具有 20 万多个数据点的 1000 维数据的算法.我想使用 numpy、scipy、sklearn、networkx 和其他有用的库.我想执行所有点之间的成对距离等操作并对所有点进行聚类.我已经实现了以合理的复杂性执行我想要的工作的算法,但是当我尝试将它们扩展到我的所有数据时,我的 RAM 用完了.当然,我这样做,为 200k+ 数据的成对距离创建矩阵需要大量内
..
我正在研究 lambda 架构并了解如何使用它来构建容错大数据系统. 我想知道当所有内容都可以存储在实时视图中并从中生成结果时,批处理层有什么用?是不是因为实时存储不能用于存储所有数据,那么它就不会是实时的,因为检索数据所花费的时间取决于存储数据所花费的空间. 解决方案 为什么要使用批处理层 为了节省时间和金钱! 它基本上有两个功能, 管理主数据集(假设是不可变
..
嗨,我是 hbase 的新手,正在尝试练习它.首先,我想描述一下系统配置.背景: 我使用的是 Windows 7 并安装了 Oracle Virtual Box.然后在 Virtual Box 上安装了 ubuntu 服务器,之后我在 ubuntu 上安装了 hbase0.98-hadoop2-bin.tar.gz.我已经在独立模式下配置了 hbase.我的 hbase-site.xml 文
..
我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout:
..
我正在尝试在 3 台 AWS ec2 机器上设置 zookeeper 集群,但不断收到相同的错误: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - 无法在选举地址/xxx.31.34.102:3888 打开到 3 的频道java.net
..
我正在尝试使用图形 API 获取 fb 页面数据.每个帖子的大小超过 1MB,其中 kafka 默认 fetch.message 为 1MB.通过在 kafa consumer.properties 和 server.properties 文件中添加以下行,我已将 kafka 属性从 1MB 更改为 3MB. fetch.message.max.bytes=3048576 (consumer.p
..
我正在设置一个风暴集群来计算实时趋势和其他统计数据,但是我在将“恢复"功能引入该项目时遇到了一些问题,因为它允许 kafka-spout 最后读取的偏移量(kafka-spout 的源代码来自https://github.com/apache/incubator-storm/tree/master/external/storm-kafka)被记住.我以这种方式启动我的 kafka-spout:
..