hbase相关内容
我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据. 我的集群分布是:Hadoop 3.0.0-cdh6.2.0,我使用的是 Spark 2.4.0 我的代码如下: val df = spark.readStream.format("卡夫卡").option("kafka.bootstrap.servers", bootstr
..
我们正在对从 MySQL 收集的 kafka 数据进行流式处理.现在,一旦完成所有分析,我想将我的数据直接保存到 Hbase.我已经通过了 spark 结构化流文档,但找不到任何带有 Hbase 的接收器.我用来从 Kafka 读取数据的代码如下. val records = spark.readStream.format("kafka").option("subscribe", "kaapo
..
当我在地图中使用richfatMapFunction 从hbase 读取时,出现序列化错误.我想要做的是如果数据流等于从 hbase else 忽略读取的特定字符串.下面是我得到的示例程序和错误. 包 com.abb.Flinktest导入 java.text.SimpleDateFormat导入 java.util.Properties导入 scala.collection.concurren
..
我试图在 alpine vm 上安装.我按照这里的教程 https://towardsdatascience.com/setting-up-a-standalone-hbase-local-instance-and-connect-to-it-with-python-happybase-9751c9fe6941 我在下面遇到错误: alpine:/home/downloads/hbase-
..
我正在尝试在 Ubuntu 上安装 OpenTSDB,我正在关注 本文档.但是在运行这些命令之后: git clone git://github.com/OpenTSDB/opentsdb.gitcd opentsdb 运行此命令会提供以下控制台输出: ./build.sh 控制台输出: seed-admin@seedadmin-Inspiron-3847:~/Abharthan/ope
..
我有一个连接到 apache phoenix 的 Web 应用程序;因此,我将 phoenix-5.0.0-HBase-2.0-client.jar 添加到依赖项中,它在本地的 Intellij 中运行良好,但是当我在服务器中启动 tomcat 时,我收到此错误消息: org.apache.catalina.LifecycleException: 无法启动组件 [StandardEngine[C
..
我们有 Python3 应用程序可以连接到 Hbase 并获取数据. 连接在 Kerberos Hbase Thrift 二进制协议(在 TSocket 中)运行良好,直到 Hadoop 团队将 Hadoop 系统移至 Cloudera 和 Cloudera 管理器,后者以 HTTPS 模式启动 Kerberos Hbase Thrift. 现在协议从 TSocket 更改为 HTTP
..
我确实有hbase表&对于SQL支持,我正在尝试探索是否可以创建apache phoenix表. 我想知道是否在现有的hbase表上创建phoenix表,它是否复制(或复制)hbase表中存在的数据,或者phoenix表只是链接到hbase中存在的现有数据? 我的凤凰版本是
..
我在这里浏览了一些HBase体系结构注释: https://mapr.com/blog/in-depth-look-hbase-architecture/并说 每个列族只有一个MemStore;当一个装满时,它们全部冲洗干净.它还会保存最后写入的序列号,以便系统知道到目前为止所保留的内容. 我的问题有两个方面. 为什么我们要立即刷新所有MemStore?我们不能只刷新已满的Mem
..
我有一些示例数据,如下所示: test_a test_b test_c test_d test_date-------------------------------------------------1 a 500 0.1 111 201911012 a NaN 0.2 NaN 201911023 a 200 0.1 111 201911034 a 400 NaN 222 201911045
..
由于法律问题,我需要从HBase中删除旧数据. 我找到了一种使用我的标准并通过将旧数据移动到新区域来分割区域的方法,但是有没有办法删除该区域? 还有其他想法如何实现目标吗? 解决方案 尝试 删除'.META.','ROW_FROM_META_WITH_YOUR_TABLE' 如果不确定要删除的行,请对".META"进行扫描.或将其值转储到文件中: echo"scan'
..
我已阅读此答案(此处). 公共静态T asWritable(byte [] bytes,Class clazz)引发IOException {T result = null;DataInputStream dataIn = null;尝试 {结果= clazz.newInstance();ByteArrayInputStream in = new ByteArrayInp
..
因为HBase基于HDFS,并且HDFS不具有更新功能,所以我想知道它的更新操作是否会重写hadoop上的整个HFILE文件? 谢谢 解决方案 HBase中没有更新. 在HBase(整个行或特定单元格)中执行删除时,特殊的删除标记将添加到单元格中.即将进行的扫描或获取操作将看不到该单元格. 执行插入操作时,只需使用当前时间戳创建一个新单元格.扫描和获取操作将返回较新版本的
..
我正在尝试使用mapreduce将数据填充到Hbase,但是一次又一次抛出以下异常:- 15/04/29 21:35:37 WARN mapreduce.JobSubmitter:Hadoop命令行选项解析未执行.实施Tool接口并使用ToolRunner执行您的应用程序以对此进行纠正.15/04/29 21:35:38 INFO mapreduce.JobSubmitter:清理登台区域文件
..
有没有一种排除它的方法.我确实尝试了一下,但遇到了ClassNotFoundException:org.apache.log4j.Level我确实看到hbase-shaded-client确实具有slf4j依赖性,因此可能有一种排除log4j并使用slf4j的方法,但是我无法. 解决方案 是的,您可以排除 log4j ,但是必须重新添加 log4j-over-slf4j .
..
我正在尝试在3个centos机器中创建一个hbase集群.Hadoop(v-2.8.0)已启动并在顶部运行我配置了HBase(v-1.2.5).Hbase启动很好,它启动了HMaster和Region服务器,但仍然显示区域服务器和HMaster日志中的以下错误它显示没有签入任何区域服务器. 2017-04-20 19:30:33,950警告[regionserver/localhost/127
..
我可以从我的reducer向HBase中的多个表写入输出吗?我浏览了不同的博客文章,但是即使使用 MultiTableOutputFormat ,也无法找到方法. 我提到了这一点:写入HBASE中的多个表 但无法找出 context.write 调用的API签名. 减速器代码: 公共类MyReducer扩展了TableReducer{私有静态最终
..
我正在尝试在hbase中执行以下命令: 扫描'testLastVersion'{VERSIONS => 8} 并且它仅返回该行的最后一个版本. 您知道如何通过命令外壳和Java代码获取row的所有版本吗?谢谢! 解决方案 我认为您在此处缺少'.'.命令应该是这样的: 扫描'emp',{VERSIONS => 8} 即使您缺少逗号,HBase也会抛出错误: Syntax
..
我知道hbase从不对记录进行真正的删除,它只是设置了一个逻辑删除标记.但是,如果数据量越来越大,又有一天您想通过对某些选定的行进行硬删除(实际删除)来减小大小,该怎么办? 解决方案 在大型压实过程中,删除了标记和删除的单元格.次要压缩只会将较小的HFiles合并为较大的HFile.您可以使用以下命令手动触发主要压缩: major_compact“表名" 紧凑(次要和主要)是在线操
..
我正在尝试hbase-spark连接器.首先,我尝试第67 行. > 我检查了此线程.它说我应该包括所有库的相同版本.之前,我在pom中有2.3.0版本的spark库.但是我意识到 hbase-spark 的最新版本是 2.0.0 .因此,我将所有Spark库的版本降级为 2.0.0 .但是我仍然遇到同样的异常. 或者我是否必须仅坚持使用 1.XX 版本,如此a>回答说它在1.5.2版之
..