hbase相关内容

使用spark-submit设置Spark Job的HBase属性

在Hbase数据迁移期间,我遇到了 java.lang.IllegalArgumentException:KeyValue大小太大 长期来看: 我需要增加/etc/hbase/conf/hbase-site.xml 中的属性 hbase.client.keyvalue.maxsize (从1048576到10485760)但是我现在无法更改此文件(我需要验证). 短期内: ..
发布时间:2021-04-08 20:06:23 其他开发

适用于Spark 2的hbase-spark

我想使用 Scala 从 Spark 2 对 hbase 进行全面扫描. 我没有固定的目录定义,因此不能选择 SHC 这样的库 我的逻辑选择是使用hbase-spark,在Spark 1.6中可以正常工作 除了以前版本中有关此库的不良文档外,令人惊讶的是在检查最新的HBase版本时,例如 ..
发布时间:2021-04-08 19:58:14 其他开发

Spark-HBase-GCP模板(1/3)-如何在本地打包Hortonworks连接器?

我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循[1],它要求使用适用于Spark 2.4的Maven(我尝试过Maven 3.6.3)在本地打包连接器[2],并导致以下问题. 错误"branch-2.4": [错误]无法在项目shc-core上执行目标net.alchim31.maven:scala-maven-plugin:3.2.2:compile(scal ..

Spark-HBase-GCP模板(2/3)-json4s的版本问题?

我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循 1 ,该请求会在本地使用Maven(我尝试过Maven 3.6.3)为Spark 2.4打包连接器[2],并在完成[3]后在 Dataproc 上提交作业时出现以下错误. 有什么主意吗? 感谢您的支持 参考 1 (HBaseRelation.scala:84)位于org.apache.spark.sql ..

Spark HBase/BigTable-宽/稀疏数据帧持久性

我想在BigTable上保留一个非常稀疏的Spark Dataframe(> 100,000列)(其中99%的值为空),同时仅保留非null值(以避免存储成本). 是否有一种方法可以在Spark中指定在写入时忽略空值? 谢谢! 解决方案 可能(未对其进行测试),在将Spark DataFrame写入HBase/BigTable之前,您可以通过使用以下方法滤除每行中具有空值的列来 ..

在Http模式下通过Thrift服务器连接到HBase的Python程序

我正在尝试编写一个简单的程序以节俭方式连接到HBase服务器,该节俭以Http模式启动(集群已进行kerberized),但我始终会收到``读取零字节错误消息'' 我已经参考了以下链接,但是仅当节俭服务器以二进制模式(??)启动时,这些示例才有效 https://github.com/joshelser/hbase-thrift1 -python-sasl/blob/master/get_r ..
发布时间:2021-02-14 21:05:43 Python

HBase kerberos令牌会过期吗

我有一个Spark Streaming应用程序,对于每个批次,我都需要将其插入受Kerberos保护的hbase中.我找到了一个解决方案,那就是在驱动程序端创建连接并从该conn获取令牌,然后将其传递给执行程序.在执行器端,我将其解码并获得令牌,这样我就可以成功地将数据插入到hbase中.这看起来不错,但我担心的是令牌会过期吗?如果是这样,请如何解决? 我的代码段是 val ugi=U ..
发布时间:2021-02-14 21:05:01 其他开发

如何使用JDBC驱动程序为Django编写自定义数据库适配器?

我在Django中有一个Web应用,在Hbase中有一个后端.要访问hbase,我正在使用Apache Phoenix查询hbase. Phoenix公开了jdbc驱动程序. 如何使用这些jdbc驱动程序将Phoenix与Django ORM集成在一起? 我可以编写客户数据库适配器还是其他方法? 谢谢. 解决方案 我也一直在尝试查看是否有可能将django的ORM扩展为使用ap ..
发布时间:2021-02-11 19:27:54 其他开发

即使最大版本= 1,HBase get也会返回旧值

我希望找到在特定时间段内未更新的列. 所以我想对具有时间范围的列进行扫描. HBase的正常行为是您可以在该时间范围内获得最新值(这不是我想要的). 据我了解,HBase的工作方式是,如果将列族中的值的最大版本数设置为"1",则它应仅保留输入到单元格中的最后一个值. > 我发现的与众不同. 如果我在hbase shell中执行以下命令 create 't1', {NAM ..
发布时间:2020-11-22 19:04:54 其他开发

使用HBase扫描在ScanMetrics中到底countOfRowsFiltered是什么?

我有一个要进行大量插入和删除操作的表,我需要使用“扫描"(仅按行键,没有列值)频繁地对其进行扫描. 我注意到Scan延迟随着表中数据量的增加而增加.仔细检查ScanMetrics后,我注意到对于大多数更高延迟的扫描,ScanMetrics.countOfRowsFiltered的度量值比我实际请求扫描的行数高得多(我在我设置为scan的FilterList中的Scan和PageFilter( ..
发布时间:2020-11-22 19:04:51 其他开发

在Apache Spark中,将JavaRDD< Row>转换为到Dataset< Row>给出异常:ArrayList不是字符串模式的有效外部类型

我正在使用 hbase-spark连接器来获取hbase数据进入spark JavaRDD(由于可以打印获取的hbase数据,因此我认为我可以成功完成此操作).然后,我试图将JavaRDD转换为Dataset.但这给了我错误,这将在后面进一步介绍.首先,让我开始编写代码. private static JavaRDD loadHBaseRDD() th ..
发布时间:2020-11-22 19:04:49 Java开发

如何从Spark.scala访问HBase?是否有明确定义的Scala API?

如何从Spark.scala访问HBase?是否有明确定义的Scala API?我正在查看数据帧级别,而不是RDD. 网络上有许多可用的选项,例如 Apache HBase连接器 SparkOnHBase 还有更多选择. 但是很高兴知道或使用该行业中最常用的东西. 感谢您的帮助. Hortonworks的 解决方案 Spark-Hbase连接器被广泛用于从Spark访问HB ..
发布时间:2020-11-22 19:04:45 其他开发

基于行键的Hbase Python过滤器

我正在使用Python和Hbase,我需要根据行键从Hbase过滤行. 我设法使其适用于列title:t,但找不到任何方法将子字符串过滤器应用于行键列. 这是我为title:t列所做的,并且工作正常: for key, data in index.scan(filter="SingleColumnValueFilter('title','t',=,'substring:Valer ..
发布时间:2020-11-22 19:04:41 Python

Hbase设置配置:HMaster未运行

我正在尝试以完全分布式模式设置HBase:包括1个主服务器和2个区域服务器.我在hbase-env.sh中设置了HBASE_MANAGES_ZK = true. hadoop集群在具有以下配置的集群上运行: Master:node-master 区域服务器1:节点1 Regionserver2:node2 当我启动HBase时,我可以看到RegionServers正在启动,并且mast ..
发布时间:2020-11-22 19:04:34 其他开发

Hbase .log文件

我的HBASE以伪分布式模式运行,版本为hbase-0.98.5.当我在HDFS中列出hbase文件时,我无法查看.logs文件夹,我在HBASE中创建了一些表.我对WAL编辑存储在哪里感到困惑?或我的安装有任何问题.我可以在列出的文件中看到一个WAL文件夹.与.logs文件夹相同.有人可以帮忙吗? 解决方案 从0.96开始,更改了/hbase目录布局 /hbase/.logs现在是/hb ..
发布时间:2020-11-22 19:03:31 其他开发

HDFS中的Hadoop Hive查询文件

如果我在HDFS之上构建Hive,是否需要在处理它们之前将所有文件放入hive/仓库文件夹中?我可以通过hive查询hdfs中的任何文件吗?怎么样? 解决方案 您无需执行任何特殊操作即可在现有HDFS群集之上运行Hive.这是由于Hive的体系结构而发生的.默认情况下,Hive在HDFS上运行. 在处理它们之前,我是否需要将所有文件放入配置单元/仓库文件夹中? 您也不必这样做. ..
发布时间:2020-11-22 19:03:29 其他开发

为什么Hbase需要WAL?

我是Hbase的新手,我发现Hbase会将所有操作写入WAL和memstore. Q1:我想知道为什么Hbase需要WAL? Q2:每次放置或删除数据时,Hbase都必须写入WAL,为什么 不只是在其数据文件中对其进行操作? 解决方案 Q1)为什么Hbase需要WAL? WAL用于恢复目的.通过 MapR文档 ,可以使您更加了解hbase架构. /p> 当客户端发出 ..
发布时间:2020-11-22 19:02:24 其他开发