hbase相关内容
我正在处理一个批处理作业,以通过HTableInterface将一批Put对象处理到HBase中. API有两种方法,即HTableInterface.put(List)和HTableInterface.put(Put). 我想知道,对于相同数量的Put对象,批次的放置速度是否比逐个放置它们的速度快? 另一个问题是,我正在放置一个非常大的Put对象,这导致作业失败.放置对象的大小似乎受
..
这是我的问题: 1)您是否尝试过仅将所有数据放入行键中?我只有很少的数据行(但有数百万行),需要将更多的数据实体组合在一起以使密钥唯一,因此我的想法是使用我需要存储在HBase中的所有内容来创建复合密钥.您是否尝试过,您认为可能是瓶颈/问题?应该考虑什么?我可以想象这将需要更多的RAM,因为我会将更多的内容放入Bloom过滤器中. 2)我只想对此进行确认,因为我无法以这种形式找到它.就
..
我正在使用 scan 'table_name', { COLUMNS => 'column_family:column_qualifier', LIMIT => 2 } 列出hbase表中的2行,但我想知道是否可以使用hbase shell实现以下目的: 问题 通过hbase shell列出所有行键吗? 仅列出那些行键中包含特定单词的行? 解决方案 A1. hba
..
如何使用Get.setMaxVersions(10)方法返回HBase单元的所有带时间戳的版本,其中10是任意数字(可能是20或5).以下是控制台的主要方法,该方法创建一个表,插入10个随机整数,然后尝试检索所有整数以打印出来. public static void main(String[] args) throws ZooKeeperConnectionException, Ma
..
我正在使用saveAsNewAPIHadoopDataset将puts RDD保存到Hbase.以下是我的职位创建和提交. val outputTableName = "test3" val conf2 = HBaseConfiguration.create() conf2.set("hbase.zookeeper.quorum", "xx.xx.xx.xx")
..
我正在尝试从Phoenix中的现有结构创建一个新表.在Phoenix中是否有一个CREATE as Select语句.我正在尝试,但失败了,但出现以下异常. 欢迎在这里提出任何建议.预先感谢. CREATE TABLE TEST AS (SELECT * FROM TEST_2 WHERE 1 =2); org.apache.phoenix.exception.PhoenixPar
..
版本:Hadoop:2.0.0-cdh4.3.1 HBase:0.94.6-cdh4.3.1 我正在运行cloudera快速启动vm(一切都在172.16.144.150上运行),这是我的小HBase Java客户端(HbaseClient.java),HBase客户端在远程计算机上运行,它所做的就是: public static void main(String[] arg
..
我将密钥保存为字节数组.在HBase Shell中,当我查看密钥时,我看到非十六进制值...我没有启用任何编码,也没有启用任何压缩. 这是一个示例...什么是VNQ?什么是BBW?我猜正在进行某种编码吗? \xFB\xC6\xE8\x03\xF0VNQ\x8By\xF6\x89D\xC1\xBBW\x00\x00\x00\x00\x00\x00\x01\xF3\x00\x00\x00\
..
我正在本地计算机上运行Hadoop 2.7,以及HBase 1.4和Phoenix 4.15.我编写了一个应用程序,该应用程序提交了通过Phoenix删除HBase中的数据的map reduce作业.每个作业都由ThreadPoolExecutor的单个线程运行,如下所示: public class MRDeleteTask extends Task { private final
..
我试图通过将所有必需的jar添加到来自Java命令行路径(./java -cp“的类路径中来运行相同的代码(org.apache.hadoop.hbase.mapreduce.Export)导出类. :/npachava/*“导出测试/test),出现以下错误. Exception in thread "main" java.io.IOException: Cannot initialize
..
我正在尝试使用start-hbase.sh启动HBASE,但是出现错误:java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder. 我尝试将各种.jar添加到各种文件夹(如其他线程中所建议),但是没有任何效果.我正在使用Hadoop 3.11和HBase 2.10,这是(结束)错误日志. java.lang.R
..
我正在尝试在hadoop群集上安装HBase,无法弄清楚为什么从start-hbase.sh调用时HMaster无法启动.日志文件指示hsync存在问题.我已经确认zookeeper在分布式模式下可以正常运行,并且通过spark在使用hadoop集群方面没有任何问题.尝试启动HBase时,区域服务器将在所有数据节点上启动. 我有hadoop版本3.0.0,zookeeper 3.4.11和h
..
我有多个HBase表,如何估计在Java中使用的表的大致大小? 解决方案 一种方法是,您必须使用Java客户端(通常在/hbase文件夹下)访问hdfs 所有表信息.将存在. Hadoop shell: 您可以使用hadoop fs -du -h **path to hbase**/hbase 进行检查 在/hbase下,每个表又占用一个文件夹... hadoop f
..
在线上有大量有关使用Scala通过Spark流将其批量加载到HBase的信息(两个特别有用)和一些有关Java的信息,但是似乎缺少使用PySpark进行操作的信息.所以我的问题是: 如何使用PySpark将数据批量加载到HBase中? 任何语言中的大多数示例都只显示每行向上插入一列.如何在每行上增加多列? 我当前拥有的代码如下: if __name__ == "__main__
..
我正在使用CDH 5.4.2并尝试创建具有以下代码段的Hbase Table: Configuration conf = HBaseConfiguration.create(new Configuration()); HBaseAdmin hba = new HBaseAdmin(conf); if(!hba.tab
..
有什么方法可以在HBase或OLAP中创建多维数据集维度吗? 我想用我的HBASE或HIVE创建CUBE DIMENSIONS类应用程序,并将其与SSAS连接以进行报告,这可能吗?如果可以,请通过一些链接和代码指导我. 我试图在蜂巢中创建多维数据集视图,我想知道HBase是否可行. 谢谢... 解决方案 这很有可能.实际上,近来已经针对该问题进行了几次尝试.参见 HBase-L
..
我正在编写一个应用程序,该应用程序通过JSP在HBase的特定表中显示数据.我想获取特定列族中的所有列. 有什么办法吗? 解决方案 public String[] getColumnsInColumnFamily(Result r, String ColumnFamily) { NavigableMap familyMap = r.get
..
我正在将数据存储在具有5个区域服务器的hbase中.我使用url的md5哈希作为我的行键.当前,所有数据仅存储在一个区域服务器中.因此,我想预分割区域,以便数据将在所有区域服务器中均匀分布,以便数据将在每个区域服务器中均匀分布. 我想将数据拆分为行键的第一个字符,因为第一个字符是从0到f(16个字符).像rowkey从0到3的数据将进入第一个区域服务器,第2个3-6,第3个6-9,第4个a-d,第
..
我正在使用HBase 1.1.2,并尝试重新部署自定义端点协处理器以修复Java代码中的错误.我对协处理器代码进行了一些更改,并通过以下步骤将其重新部署: 重建协处理器jar 将其复制到HDFS上的某个位置 删除现有的协处理器:alter 'table', METHOD => 'table_att_unset',NAME => 'coprocessor$1' 通过HBase UI确认表
..
我正在将hortonworks 2.1与hbase和hive一起使用. 我想从tsv文件创建一个hbase表.该文件在这里: id c1 c2 row1 1 22 row2 e1 42 row3 g1 f2 row4 f1 c2 row5 d1 c2 row6 c1 42 row7 e1 c2 row8 c1 c2
..