hbase相关内容

HBase是否有区域复制

我知道HBase有WAL和HFILE的副本,但所有这些都作为持久性存储在HDFS中。因此,HBase还将提供地区级副本。我们知道Region包含BlockCache和Memcache,如果只有一个Region实例处理请求,HBase如何解决热点请求。 另外,如果只有一个地域实例,HBase将始终保持一致,对吗?因为所有读者只从一个地区阅读,所以他们总是看到相同的数据?谢谢! 推荐答案 ..
发布时间:2022-08-05 12:06:59 其他开发

稀疏数据/数据存储区/数据库是什么意思?

我最近一直在阅读Hadoop和HBase,并遇到了这个术语- HBase是一个开源、分布式、稀疏、面向列的存储... 稀疏是什么意思?是不是跟sparse matrix有关?我猜这是它可以有效存储的数据类型的属性,因此,我想了解更多有关它的信息。 推荐答案 在常规数据库中,行稀疏,但列不稀疏。创建行时,将为每列分配存储空间,而不考虑该字段是否存在值(该字段是为行和列的交叉点 ..
发布时间:2022-06-29 15:43:25 其他开发

HBase客户端-服务器的版本兼容性

我想知道如何知道我的HBase客户机的JAR是否适合我的HBase服务器的版本。是否有指定HBase客户端JAR支持哪些HBase版本的地方? 在我的示例中,我希望将最新的HBase客户机JAR(2.4.5)与相当旧的HBase服务器(版本1.2)一起使用。有没有地方可以检查兼容性以了解它是否可行和是否受支持? 我想知道是否有一个表显示了与其他数据库一样的广泛兼容性。类似于: https: ..
发布时间:2022-03-07 16:42:37 其他开发

Janusgraph 0.3.2+HBase 1.4.9-无法设置图形。时间戳

我在码头容器中运行Janusgraph 0.3.2,并尝试使用运行HBase 1.4.9的AWS EMR集群作为存储后端。我可以运行gremlin-server.sh,但是如果我试图保存一些内容,我会得到下面粘贴的堆栈跟踪。在我看来,这些锁是使用不同的时间戳长度创建的,导致它看起来不存在锁。 我尝试将raph.timeStamp设置添加到配置文件,但仍然出现相同的错误。 这是我的配置 gr ..
发布时间:2022-03-07 16:38:57 Java开发

HBase MemStore和垃圾回收

我是HBase的新手,但我已经进行了设置,并且了解了一些关于HBase和Hadoop的知识。 当我研究HBase MemStore时,我对MemStore的理解是“MemStore是HBase放置必须写入或读取的数据的内存中位置”。 因此,这就是为什么我们希望在何时何地阅读有关memstore的内容,也会看到有关垃圾收集的讨论。 现在我的问题是,memstore的唯一目的是在内存中保存可读 ..
发布时间:2022-03-07 16:35:37 其他开发

HBase外壳扫描字节到字符串的转换

我想扫描HBase表,并将整数视为字符串(而不是它们的二进制表示)。我可以进行转换,但不知道如何使用HBase shell中的Java API编写扫描语句: org.apache.hadoop.hbase.util.Bytes.toString( "x48x65x6cx6cx6fx20x48x42x61x73x65".to_java_bytes) org.apache.hadoop. ..
发布时间:2022-03-07 16:32:34 其他开发

Apache Camel 可以与旧的组件版本集成吗?

我想知道是否可以将旧版本的 Camel 组件与较新的 Apache Camel 版本的应用程序集成.在我的情况下,我想集成到 Hbase 服务器版本 1.2,它仅受 HBase 客户端 1.2 支持.因此,即使我想使用 3.1 Camel 版本,我也想使用 Camel-HBase 组件的 3.0.1 版本.这是一件好事吗? 或者有什么地方可以看到 Apache Camel 支持的库版本? ..
发布时间:2022-01-19 08:38:08 其他开发

在 HBase 中删除多行的有效方法

是否有一种有效的方法可以删除 HBase 中的多行,或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表",其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1"到“chart ..
发布时间:2022-01-14 08:12:32 其他开发

如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个名为 UserAction 的大表,它具有三个列族(歌曲、专辑、歌手).我需要从“歌曲"列族中获取所有数据作为 JavaRDD 对象.我尝试了这段代码,但效率不高.有更好的解决方案吗? static SparkConf sparkConf = new SparkConf().setAppName("test").setMaster(“本地[4]");静态 JavaSp ..
发布时间:2022-01-14 08:04:42 Java开发

Hadoop - 直接从 Mapper 写入 HBase

我有一个 haddop 工作,它的输出应该被写入 HBase.我真的不需要reducer,我想插入的行类型在Mapper中确定. 如何使用 TableOutputFormat 来实现这一点?从我看到的所有示例中,我假设 reducer 是创建 Put 的那个,而 TableMapper 只是用于从 HBase 表中读取. 在我的情况下,输入是 HDFS,输出是放到特定表中,我在 Tab ..
发布时间:2022-01-14 08:03:49 Java开发

在 hive 的外部表中创建分区

我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中,从而动态创建所有分区 我的问题是,如何在外部表中执行此操作?我读了很多关于此的文章,但我很困惑,我是否必须指定已经存在的分区的路径才能为外部表创建分区?? ..
发布时间:2022-01-14 08:03:11 其他开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..
发布时间:2022-01-13 23:59:25 其他开发

来自 HBase 的 Hadoop mapreduce 流式传输

我正在构建一个使用 HBase (0.20.1) 作为数据源和数据接收器的 Hadoop (0.20.1) mapreduce 作业.我想用 Python 编写这份工作,这需要我使用 hadoop-0.20.1-streaming.jar 将数据流进出我的 Python 脚本.如果数据源/接收器是 HDFS 文件,这可以正常工作. Hadoop 是否支持从/到 HBase 的流式传输以用于 ..
发布时间:2022-01-13 23:42:07 其他开发

如何在hbase中加入表

我必须在 Hbase 中加入表. 我集成了 HIVE 和 HBase,效果很好.我可以使用 HIVE 进行查询. 但是有人可以帮助我如何在不使用 HIVE 的情况下加入 HBase 中的表.我认为使用 mapreduce 我们可以实现这一点,如果可以的话,任何人都可以分享一个我可以参考的工作示例. 请分享您的意见. 我有一个办法.也就是说, 如果我需要加入表 A x ..
发布时间:2022-01-13 23:36:16 其他开发

写入 HBASE 中的多个表

我在这里遇到一种情况,我需要写入两个 hbase 表,比如 table1,table 2.每当表 1 上发生写入时,我需要对表 2 执行一些操作,比如在表 2 中增加一个计数器(比如触发).为此,我需要在 map-reduce 程序的同一任务中访问(写入)两个表.我听说可以使用 MultiTableOutputFormat 来完成.但我找不到任何详细解释的好例子.有人可以回答是否可以这样做.如果是 ..
发布时间:2022-01-13 23:31:02 其他开发

HBase 中的 SQL LIMIT 等命令

HBase 有没有类似 SQL LIMIT 查询的命令? 我可以通过 setStart 和 setEnd 来完成,但我不想迭代所有行. 解决方案 从 HBase shell 你可以使用 LIMIT: hbase>扫描'测试表',{'LIMIT' =>5} 在 Java API 中,您可以使用 Scan.setMaxResultSize(N) 或 scan.setMaxResult ..
发布时间:2022-01-13 14:00:22 其他开发

实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉?

我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集都有相 ..
发布时间:2022-01-13 13:59:22 其他开发