hbase相关内容
据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些,为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案 简单来说,使用 hive,您可以在表上触发类似 SQL 的查询(有一些例外),并用于批处理操作
..
我创建了一个表 创建'tablename', 'columnfamily1' 现在可以添加另一个列族“columnfamily2"吗?方法是什么? 解决方案 好像 改变 'tablename', 'columnfamily2' 成功了.可以先禁用“tablename".但是,即使启用它也能正常工作. hbase(main):015:0>改变“表名",{NAME=>'columnf
..
我想从 hbase shell 扫描 HTable 中的行,其中列族(即 Tweet)具有特定值(即 user_id). 现在我想查找所有 tweet:user_id 的值为 test1 的行,因为该列的值为 'test1' column=tweet:user_id,timestamp=1339581201187,value=test1 虽然我可以扫描表以查找特定用途, 扫描 'twe
..
有人知道如何根据某些扫描过滤器扫描记录,例如: column:something = "somevalue" 类似于 this,但来自 HBase shell? 解决方案 试试这个.这有点难看,但对我有用. import org.apache.hadoop.hbase.filter.CompareFilter导入 org.apache.hadoop.hbase.filter.
..
我正试图弄清楚这些新奇的数据存储,如 bigtable、hbase 和 cassandra 到底是什么. 我处理大量股票市场数据、数十亿行价格/报价数据,这些数据每天可以加起来高达 100 GB(尽管这些文本文件通常会压缩至少一个数量级).这些数据基本上是一些数字、两三个短字符串和一个时间戳(通常是毫秒级).如果我必须为每一行选择一个唯一标识符,我将不得不选择整行(因为交换可能会在同一毫秒内
..
我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,而且我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都具有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集
..
我是 Hbase 的新手 是否可以/如何在 Hbase 中自动增加行键?(就像每个插入行键必须是自动递增本身) 或者是否可以自动增加任何其他列?(例如对于每个插入,此列必须自动递增 1) 解决方案 HBase 不推荐单增行键,参考:http://hbase.apache.org/book/rowkey.design.html,第 6.3.2 页.实际上,使用全局排序的行键会导致
..
我正试图弄清楚这些新奇的数据存储(例如 bigtable、hbase 和 cassandra)究竟是什么. 我处理大量股票市场数据、数十亿行的价格/报价数据,这些数据每天可以增加多达 100 千兆字节(尽管这些文本文件通常至少压缩一个数量级).这些数据基本上是一些数字、两三个短字符串和一个时间戳(通常是毫秒级).如果我必须为每一行选择一个唯一标识符,我将不得不选择整行(因为交换可能会在同一毫
..
在对大规模数据存储解决方案进行研究后,我差点就加入了 Cassandra.但一般来说,Hbase 是更适合大规模数据处理和分析的解决方案. 虽然两者都是相同的键/值存储,并且都/可以运行(最近 Cassandra)Hadoop 层,但是当需要对大数据进行处理/分析时,是什么让 Hadoop 成为更好的候选者. 我还在http://ria101.wordpress.com/2010/02
..
关于选择哪种 NoSQL 的另一个问题.但是,我还没有发现有人要求这种类型的目的,消息存储... 我制作了一个 Erlang 聊天服务器,我已经在使用 MySQL 来存储好友列表和“需要加入"信息. 我想存储消息(该用户未收到,因为他处于离线状态...)并检索它们. 我已经预先选择了 NoSQL,我不能使用像 MongoDB 这样的东西,因为它是面向 RAM 的范式,并且不能像其
..
如何通过命令从 solr 中删除所有数据?我们将 solr 与 lily 和 hbase 一起使用. 如何同时从 hbase 和 solr 中删除数据? http://lucene.apache.org/solr/4_10_0/tutorial.html#Deleting+数据 解决方案 如果要清理 Solr 索引 - 你可以触发 http url - http://h
..
据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做这一切,为什么我们应该使用 hbase?我们可以单独使用 hive 吗?我很困惑:( 解决方案 所以简单来说,使用 hive,您可以在您的表上触发类似 SQL 的查询(有一些例外),并
..
嗨,我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口,但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问
..
我正在使用带有 hbase 和 hive 的 hortonworks 2.1.我想从 tsv 文件创建一个 hbase 表.文件在这里: id c1 c2第 1 行 1 22行 2 e1 42行 3 g1 f2行4 f1 c2行 5 d1 c2第 6 行 c1 42行 7 e1 c2行8 c1 c2行9 c1 c2行 10 c1 22 我使用的命令是: bin/hbase org.apac
..
我有一个基于 cdh5 的 hadoop ha 设置.我尝试使用 sqoop 从 mysql 导入表失败,并出现以下错误. 15/03/20 12:47:53 错误 manager.SqlManager:从数据库读取错误:java.sql.SQLException:流式结果集 com.mysql.jdbc.RowDataDynamic@33573e93 仍然处于活动状态.当任何流结果集打开并在给
..
我正在尝试设置 Hbase 的多节点集群.当我在奴隶上做 jps 时,我得到 5780 日元5558 HQuorumPeer5684 HRegionServer1963 数据节点2093 任务追踪器 同样在主人身上我得到 4254 SecondaryNameNode15226 日元14982 HMaster3907 名称节点14921 HQuorumPeer4340 工作追踪器 一切正常.
..
我刚刚开始探索 Hive.它具有类似于 RDBMS 的所有结构,如表、连接、分区……我的理解是 Hive 仍然使用 HDFS 进行存储,它是 HDFS 的 SQL 抽象.由此我不确定天气 Hive 本身是一个像 HBase、Cassnadra 一样的数据库解决方案,或者只是一个基于 HDFS 的查询系统.我不认为它只是一种查询语言,因为它具有表、连接和分区.. 解决方案 Hive 是一个构
..
我是 Hadoop 的新手.我知道 HCatalog 是 Hadoop 的表和存储管理层.但是它究竟是如何工作的以及如何使用它.请举一些简单的例子. 解决方案 HCatalog 支持读取和写入可以写入 Hive SerDe(串行器-解串器)的任何格式的文件.默认情况下,HCatalog 支持 RCFile、CSV、JSON 和 SequenceFile 格式.要使用自定义格式,您必须提供
..
我正在尝试将 CSV 文件加载到 Hive 表中,如下所示: 创建表 mytable(num1 INT,文本 1 字符串,num2 INT,文本 2 字符串)行格式以“,"结尾的分隔字段;加载数据本地输入路径'/data.csv'OVERWRITE INTO TABLE mytable; csv 由逗号 (,) 分隔,如下所示: 1, "一些文本,其中包含逗号", 123, "更多文本"
..
我有兴趣了解最近发布的 (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive 在性能方面与 HBase 相比.Hive 使用的类 SQL 接口比我们实现的 HBase API 更可取. 解决方案 很难找到很多关于 Hive 的信息,但我找到了这个
..