hbase 第5页 - IT屋-程序员软件开发技术分享社区

Hbase 管理的zookeeper 突然尝试连接到localhost 而不是zookeeper quorum

我正在使用表映射器和化简器对大规模问题进行一些测试.在某个点之后，当工作完成 80% 时，我的减速器开始出现故障.从我查看系统日志时可以看出，问题是我的一个动物园管理员正在尝试连接到本地主机，而不是仲裁中的其他动物园管理员奇怪的是，当映射正在进行时，它似乎可以很好地连接到其他节点，这减少了它的问题.以下是系统日志的选定部分，可能与弄清楚发生了什么有关 2014-06-27 09:44:0 ..

发布时间：2021-11-14 23:57:27 hadoop hbase apache-zookeeper 其他开发

启动 Master 时的 HBase 错误 IllegalStateException:hsync

我正在尝试在 hadoop 集群上安装 HBase，但无法弄清楚从 start-hbase.sh 调用时 HMaster 无法启动的原因.日志文件表明 hsync 存在问题.我已经确认zookeeper在分布式模式下正确运行，并且通过spark使用hadoop集群没有任何问题.尝试启动 HBase 时，区域服务器会在所有数据节点上启动. 我有 hadoop 3.0.0 版、zookeeper ..

发布时间：2021-11-14 23:57:03 hadoop hbase apache-zookeeper 其他开发

hbase-site.xml 中的zookeeper quorum 设置究竟是什么?

hbase-site.xml 中的zookeeper quorum 设置究竟是什么? 解决方案如 hbase-default.xml，这里是设置: ZooKeeper Quorum 中以逗号分隔的服务器列表.例如，“host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认情况下，对于本地和伪分布式操作模式，这设置为 ..

发布时间：2021-11-14 23:56:54 java hadoop hbase apache-zookeeper Java开发

奇怪的 DNS 服务器导致 Hadoop 和 HBase 出现故障

我的网络有一些奇怪的(据我所知)DNS 服务器，这会导致 Hadoop 或 HBase 出现故障. 它将我的主机名解析为我的机器不知道的某个地址(即没有这样的接口). 如果我在/etc/hosts 中有以下条目，Hadoop 确实可以工作: 127.0.0.1 本地主机127.0.1.1 我的主机名如果条目“127.0.1.1 myhostname"不存在，则将文件上传到 HDF ..

发布时间：2021-11-14 23:56:51 hadoop dns hbase apache-zookeeper 其他开发

从 Storm bolt 将行插入 HBase

我希望能够从分布式(非本地)Storm 拓扑中将新条目写入 HBase.有一些 GitHub 项目提供 HBase Mappers 或预制 Storm bolts 将元组写入 HBase.这些项目提供了在 LocalCluster 上执行其示例的说明. 我在使用这两个项目并直接从 Bolt 访问 HBase API 时遇到的问题是，它们都需要将 HBase-site.xml 文件包含在类路 ..

发布时间：2021-11-14 23:38:18 java hbase apache-storm Java开发

测试 java HBase 连接

我正在尝试使用 HBase Java API 将数据写入 HBase.我通过 Ambari 安装了 Hadoop/HBase. 以下是当前配置的设置方式: final Configuration CONFIGURATION = HBaseConfiguration.create();最终 HBaseAdmin HBASE_ADMIN;HBASE_ADMIN = 新 HBaseAdmin(配 ..

发布时间：2021-11-14 23:34:54 java hadoop hbase apache-storm Java开发

在 Spark sc.newAPIHadoopRDD 中读取 2.7 GB 数据，有 5 个分区

我正在使用 spark 1.4，我正在尝试使用 sc.newAPIHadoopRDD 从 Hbase 读取数据以读取 2.7 GB 数据，但为此阶段创建了 5 个任务，处理它需要 2 t0 3 分钟.谁能告诉我如何增加更多分区以快速读取数据? 解决方案 org.apache.hadoop.hbase.mapreduce.TableInputFormat 为每个区域创建一个分区.您的表似乎分 ..

发布时间：2021-11-14 22:52:21 apache-spark hbase apache-spark-sql 其他开发

SparkSQL+Hive+Hbase+HbaseIntegration 不起作用

当我尝试连接 hive 表(正在通过 HbaseIntegration 创建)在 spark 我遵循的步骤:Hive 表创建代码: CREATE TABLE test.sample(id string,name string)由'org.apache.hadoop.hive.hbase.HBaseStorageHandler'存储SERDEPROPERTIES ("hbase.column ..

发布时间：2021-11-14 22:35:31 hadoop apache-spark hive hbase apache-spark-sql 其他开发

带过滤器的 HBASE SPARK 查询，无需加载所有 hbase

我必须查询 HBASE，然后使用 spark 和 scala 处理数据.我的问题是，在我的解决方案中，我获取了 HBASE 表的所有数据，然后进行过滤，这不是一种有效的方法，因为它占用了太多内存.所以我想直接做过滤器，我该怎么做? def HbaseSparkQuery(table: String, gatewayINPUT: String, sparkContext: SparkContext ..

发布时间：2021-11-14 22:35:16 scala apache-spark apache-spark-sql hbase 其他开发

HBase 表上的 SparkSQL

任何人都直接在 HBase 表上使用 SparkSQL，就像在 Hive 表上使用 SparkSQL.我是spark新手.请指导我如何连接hbase和spark.如何查询hbase表. 解决方案 AFAIK 有两种方法可以连接到 hbase 表 - 直接连接到 Hbase : 直接连接 hbase 并从 RDD 创建一个 DataFrame 并在其上执行 SQL.我不会重新发明 ..

发布时间：2021-11-14 22:22:09 apache-spark hadoop apache-spark-sql hbase 其他开发

使用 Pyspark 与 Hbase 交互的最佳方式是什么

我正在使用 pyspark [spark2.3.1] 和 Hbase1.2.1，我想知道使用 pyspark 访问 Hbase 的最佳方式是什么? 我进行了一些初始级别的搜索，发现几乎没有可用的选项，例如使用 shc-core:1.1.1-2.1-s_2.11.jar 这可以实现，但是无论我在哪里尝试寻找一些示例，在大多数地方，代码是用 Scala 编写的，或者示例也是基于 Scala 的. ..

发布时间：2021-11-14 21:47:54 apache-spark hadoop pyspark apache-spark-sql hbase 其他开发

如何使用 Python 连接 HBase 和 Spark?

我有一个令人尴尬的并行任务，我使用 Spark 来分配计算.这些计算是在 Python 中进行的，我使用 PySpark 来读取和预处理数据.我的任务的输入数据存储在 HBase 中.不幸的是，我还没有找到一种令人满意的(即易于使用和可扩展的)方式来使用 Python 从/向 Spark 读取/写入 HBase 数据. 我之前探索过的内容: 使用 happybase 从我的 Pytho ..

发布时间：2021-11-14 21:25:56 python apache-spark hbase pyspark apache-spark-sql Python

Spark on YARN + Secured hbase

我正在向连接到安全 hbase 集群的 YARN(在 spark 2.1.1 + kafka 0.10.2.1 上)提交作业.当我在“本地"模式(spark.master=local[*])下运行时，这项工作执行得很好. 但是，一旦我以 YARN(并将部署模式作为客户端)提交作业，我就会看到以下错误消息 - Caused by: javax.security.auth.login.Logi ..

发布时间：2021-11-12 05:38:19 apache-spark hbase kerberos hadoop2 spark-structured-streaming 其他开发

如何使用spark从hbase读取

下面的代码将从hbase读取，然后将其转换为json结构并转换为schemaRDD，但问题是我使用List来存储json字符串然后传递给javaRDD，对于大约 100 GB 的数据，master 将在内存中加载数据.从 hbase 加载数据然后执行操作，然后转换为 JavaRDD 的正确方法是什么. package hbase_reader;导入 java.io.IOException;导入 ..

发布时间：2021-11-12 05:34:35 hbase apache-spark rdd 其他开发

Apache Pig-错误 6007:“无法检查名称"信息

环境:hadoop 1.0.3、hbase 0.94.1、pig 0.11.1 我在 Java 程序中运行 Pig 脚本，有时会出现以下错误，但并非总是如此.该程序所做的是从 hdfs 加载文件，进行一些转换并将其存储到 hbase 中.我的程序是多线程的.而且我已经使 PigServer 线程安全，并且在 hdfs 中创建了“/user/root"目录.这是程序的片段和我得到的例外.请指教 ..

发布时间：2021-11-12 04:20:18 java hbase apache-pig Java开发

Apache Pig:动态列

我有一个数据集 (CSV)，它具有三个值列(v1、2 和 3)，其中包含一个值.值的描述以逗号分隔的字符串形式存储在 'keys' 列中. |v1 |v2 |v3 |钥匙 ||一个 |C |E |X,Y,Z | 使用 Pig 我想将此信息加载到 HBase 表中，其中列族是 C，列限定符是关键. |C:X |C:Y |C:Z ||一个 |C |E | 以前有没有人做过这件事并愿意分享这些知 ..

发布时间：2021-11-12 04:18:18 hbase apache-pig 其他开发

Pig - 简单加载异常

我刚刚开始学习 pig 并尝试用它做一些事情，所以我进入 pig 控制台并简单地输入 a = load 'sample_data.csv'; (我有一个名为 sample_data.csv).我收到以下异常: Pig Stack Trace---------------错误 2998:未处理的内部错误.姓名java.lang.NoSuchFieldError: 名称在 org.apache.pi ..

发布时间：2021-11-12 04:17:24 hadoop hbase apache-pig 其他开发

如何在 GRUNT shell 中取消命令

这可能是一个更普遍的问题:Linux 中的许多工具都有自己的外壳.就我而言，我使用 pig 和 hbase.有时候在shell中执行一个命令，返回很多结果，我想取消它.例如，假设您执行 cat 'a.txt' 并且该文件很大.在不退出 shell 的情况下取消它的最佳方法是什么.如果我按 Ctrl+c，它将退出 shell. 解决方案 kill 将终止具有指定 id 的 mapreduce ..

发布时间：2021-11-12 04:07:24 linux shell hbase apache-pig 服务器开发

CDH4 Hbase 使用 Pig ERROR 2998 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter

我在伪分布式模式下使用 CDH4，并且在将 HBase 和 Pig 一起使用时遇到了一些问题(但两者单独工作都很好). 我正在一步一步地学习这个不错的教程:http://blog.whitepages.com/2011/10/27/hbase-storage-和-猪/ 所以我的 Pig 脚本看起来像这样注册/usr/lib/zookeeper/zookeeper-3.4.3-cdh ..

发布时间：2021-11-12 04:02:45 hadoop hbase apache-pig noclassdeffounderror cloudera 其他开发

什么时候使用 Hadoop、HBase、Hive 和 Pig?

使用 Hadoop 或 HBase 或 Hive 有什么好处? 根据我的理解，HBase 避免使用 map-reduce，并且在 HDFS 之上有一个面向列的存储.Hive 是用于 Hadoop 和 HBase 的类似 sql 的界面. 我还想知道 Hive 与 Pig 的比较. 解决方案 MapReduce 只是一个计算框架.HBase 与它无关.也就是说，您可以通过编写 M ..

发布时间：2021-11-12 04:01:32 hadoop hbase hive apache-pig 其他开发

hbase相关内容