hbase相关内容
我知道HBase有WAL和HFILE的副本,但所有这些都作为持久性存储在HDFS中。因此,HBase还将提供地区级副本。我们知道Region包含BlockCache和Memcache,如果只有一个Region实例处理请求,HBase如何解决热点请求。 另外,如果只有一个地域实例,HBase将始终保持一致,对吗?因为所有读者只从一个地区阅读,所以他们总是看到相同的数据?谢谢! 推荐答案
..
再次调用外壳需要时间,我希望通过一次调用HBase外壳来执行多个命令。以下代码仅运行单个查询。 cmd="echo "put 'test', 'row1', 'cf:a', 'value1'"| hbase shell" 我要在单个HBase外壳调用上运行多个查询。 put 'test', 'row1', 'cf:a', 'value1' put 'test', 'row2', '
..
我最近一直在阅读Hadoop和HBase,并遇到了这个术语- HBase是一个开源、分布式、稀疏、面向列的存储... 稀疏是什么意思?是不是跟sparse matrix有关?我猜这是它可以有效存储的数据类型的属性,因此,我想了解更多有关它的信息。 推荐答案 在常规数据库中,行稀疏,但列不稀疏。创建行时,将为每列分配存储空间,而不考虑该字段是否存在值(该字段是为行和列的交叉点
..
我想知道如何知道我的HBase客户机的JAR是否适合我的HBase服务器的版本。是否有指定HBase客户端JAR支持哪些HBase版本的地方? 在我的示例中,我希望将最新的HBase客户机JAR(2.4.5)与相当旧的HBase服务器(版本1.2)一起使用。有没有地方可以检查兼容性以了解它是否可行和是否受支持? 我想知道是否有一个表显示了与其他数据库一样的广泛兼容性。类似于: https:
..
我在码头容器中运行Janusgraph 0.3.2,并尝试使用运行HBase 1.4.9的AWS EMR集群作为存储后端。我可以运行gremlin-server.sh,但是如果我试图保存一些内容,我会得到下面粘贴的堆栈跟踪。在我看来,这些锁是使用不同的时间戳长度创建的,导致它看起来不存在锁。 我尝试将raph.timeStamp设置添加到配置文件,但仍然出现相同的错误。 这是我的配置 gr
..
我是HBase的新手,但我已经进行了设置,并且了解了一些关于HBase和Hadoop的知识。 当我研究HBase MemStore时,我对MemStore的理解是“MemStore是HBase放置必须写入或读取的数据的内存中位置”。 因此,这就是为什么我们希望在何时何地阅读有关memstore的内容,也会看到有关垃圾收集的讨论。 现在我的问题是,memstore的唯一目的是在内存中保存可读
..
我想扫描HBase表,并将整数视为字符串(而不是它们的二进制表示)。我可以进行转换,但不知道如何使用HBase shell中的Java API编写扫描语句: org.apache.hadoop.hbase.util.Bytes.toString( "x48x65x6cx6cx6fx20x48x42x61x73x65".to_java_bytes) org.apache.hadoop.
..
我想知道是否可以将旧版本的 Camel 组件与较新的 Apache Camel 版本的应用程序集成.在我的情况下,我想集成到 Hbase 服务器版本 1.2,它仅受 HBase 客户端 1.2 支持.因此,即使我想使用 3.1 Camel 版本,我也想使用 Camel-HBase 组件的 3.0.1 版本.这是一件好事吗? 或者有什么地方可以看到 Apache Camel 支持的库版本?
..
是否有一种有效的方法可以删除 HBase 中的多行,或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表",其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1"到“chart
..
我在 hbase 中有一个名为 UserAction 的大表,它具有三个列族(歌曲、专辑、歌手).我需要从“歌曲"列族中获取所有数据作为 JavaRDD 对象.我尝试了这段代码,但效率不高.有更好的解决方案吗? static SparkConf sparkConf = new SparkConf().setAppName("test").setMaster(“本地[4]");静态 JavaSp
..
我有一个 haddop 工作,它的输出应该被写入 HBase.我真的不需要reducer,我想插入的行类型在Mapper中确定. 如何使用 TableOutputFormat 来实现这一点?从我看到的所有示例中,我假设 reducer 是创建 Put 的那个,而 TableMapper 只是用于从 HBase 表中读取. 在我的情况下,输入是 HDFS,输出是放到特定表中,我在 Tab
..
我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中,从而动态创建所有分区 我的问题是,如何在外部表中执行此操作?我读了很多关于此的文章,但我很困惑,我是否必须指定已经存在的分区的路径才能为外部表创建分区??
..
过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT
..
在 hbase 上运行 mapreduce 时出现以下错误: java.io.IOException: 传递 Delete 或 Put在 org.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:125)在 org.apache.hadoop.hbase.m
..
我正在构建一个使用 HBase (0.20.1) 作为数据源和数据接收器的 Hadoop (0.20.1) mapreduce 作业.我想用 Python 编写这份工作,这需要我使用 hadoop-0.20.1-streaming.jar 将数据流进出我的 Python 脚本.如果数据源/接收器是 HDFS 文件,这可以正常工作. Hadoop 是否支持从/到 HBase 的流式传输以用于
..
我必须在 Hbase 中加入表. 我集成了 HIVE 和 HBase,效果很好.我可以使用 HIVE 进行查询. 但是有人可以帮助我如何在不使用 HIVE 的情况下加入 HBase 中的表.我认为使用 mapreduce 我们可以实现这一点,如果可以的话,任何人都可以分享一个我可以参考的工作示例. 请分享您的意见. 我有一个办法.也就是说, 如果我需要加入表 A x
..
我在这里遇到一种情况,我需要写入两个 hbase 表,比如 table1,table 2.每当表 1 上发生写入时,我需要对表 2 执行一些操作,比如在表 2 中增加一个计数器(比如触发).为此,我需要在 map-reduce 程序的同一任务中访问(写入)两个表.我听说可以使用 MultiTableOutputFormat 来完成.但我找不到任何详细解释的好例子.有人可以回答是否可以这样做.如果是
..
我有一个连接到 HBASE 的 map reduce 作业,但我不知道我在哪里遇到了这个错误: 线程“main"中的异常 java.lang.reflect.InvocationTargetException在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)在 sun.reflect.NativeMethodAccessor
..
HBase 有没有类似 SQL LIMIT 查询的命令? 我可以通过 setStart 和 setEnd 来完成,但我不想迭代所有行. 解决方案 从 HBase shell 你可以使用 LIMIT: hbase>扫描'测试表',{'LIMIT' =>5} 在 Java API 中,您可以使用 Scan.setMaxResultSize(N) 或 scan.setMaxResult
..
我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集都有相
..