hbase相关内容
我正在使用表映射器和化简器对大规模问题进行一些测试.在某个点之后,当工作完成 80% 时,我的减速器开始出现故障.从我查看系统日志时可以看出,问题是我的一个动物园管理员正在尝试连接到本地主机,而不是仲裁中的其他动物园管理员 奇怪的是,当映射正在进行时,它似乎可以很好地连接到其他节点,这减少了它的问题.以下是系统日志的选定部分,可能与弄清楚发生了什么有关 2014-06-27 09:44:0
..
我正在尝试在 hadoop 集群上安装 HBase,但无法弄清楚从 start-hbase.sh 调用时 HMaster 无法启动的原因.日志文件表明 hsync 存在问题.我已经确认zookeeper在分布式模式下正确运行,并且通过spark使用hadoop集群没有任何问题.尝试启动 HBase 时,区域服务器会在所有数据节点上启动. 我有 hadoop 3.0.0 版、zookeeper
..
hbase-site.xml 中的zookeeper quorum 设置究竟是什么? 解决方案 如 hbase-default.xml, 这里是设置: ZooKeeper Quorum 中以逗号分隔的服务器列表.例如,“host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认情况下,对于本地和伪分布式操作模式,这设置为
..
我的网络有一些奇怪的(据我所知)DNS 服务器,这会导致 Hadoop 或 HBase 出现故障. 它将我的主机名解析为我的机器不知道的某个地址(即没有这样的接口). 如果我在/etc/hosts 中有以下条目,Hadoop 确实可以工作: 127.0.0.1 本地主机127.0.1.1 我的主机名 如果条目“127.0.1.1 myhostname"不存在,则将文件上传到 HDF
..
我希望能够从分布式(非本地)Storm 拓扑中将新条目写入 HBase.有一些 GitHub 项目提供 HBase Mappers 或 预制 Storm bolts 将元组写入 HBase.这些项目提供了在 LocalCluster 上执行其示例的说明. 我在使用这两个项目并直接从 Bolt 访问 HBase API 时遇到的问题是,它们都需要将 HBase-site.xml 文件包含在类路
..
我正在尝试使用 HBase Java API 将数据写入 HBase.我通过 Ambari 安装了 Hadoop/HBase. 以下是当前配置的设置方式: final Configuration CONFIGURATION = HBaseConfiguration.create();最终 HBaseAdmin HBASE_ADMIN;HBASE_ADMIN = 新 HBaseAdmin(配
..
我正在使用 spark 1.4,我正在尝试使用 sc.newAPIHadoopRDD 从 Hbase 读取数据以读取 2.7 GB 数据,但为此阶段创建了 5 个任务,处理它需要 2 t0 3 分钟.谁能告诉我如何增加更多分区以快速读取数据? 解决方案 org.apache.hadoop.hbase.mapreduce.TableInputFormat 为每个区域创建一个分区.您的表似乎分
..
当我尝试连接 hive 表(正在通过 HbaseIntegration 创建)在 spark 我遵循的步骤:Hive 表创建代码: CREATE TABLE test.sample(id string,name string)由'org.apache.hadoop.hive.hbase.HBaseStorageHandler'存储SERDEPROPERTIES ("hbase.column
..
我必须查询 HBASE,然后使用 spark 和 scala 处理数据.我的问题是,在我的解决方案中,我获取了 HBASE 表的所有数据,然后进行过滤,这不是一种有效的方法,因为它占用了太多内存.所以我想直接做过滤器,我该怎么做? def HbaseSparkQuery(table: String, gatewayINPUT: String, sparkContext: SparkContext
..
任何人都直接在 HBase 表上使用 SparkSQL,就像在 Hive 表上使用 SparkSQL.我是spark新手.请指导我如何连接hbase和spark.如何查询hbase表. 解决方案 AFAIK 有两种方法可以连接到 hbase 表 - 直接连接到 Hbase : 直接连接 hbase 并从 RDD 创建一个 DataFrame 并在其上执行 SQL.我不会重新发明
..
我正在使用 pyspark [spark2.3.1] 和 Hbase1.2.1,我想知道使用 pyspark 访问 Hbase 的最佳方式是什么? 我进行了一些初始级别的搜索,发现几乎没有可用的选项,例如使用 shc-core:1.1.1-2.1-s_2.11.jar 这可以实现,但是无论我在哪里尝试寻找一些示例,在大多数地方,代码是用 Scala 编写的,或者示例也是基于 Scala 的.
..
我有一个令人尴尬的并行任务,我使用 Spark 来分配计算.这些计算是在 Python 中进行的,我使用 PySpark 来读取和预处理数据.我的任务的输入数据存储在 HBase 中.不幸的是,我还没有找到一种令人满意的(即易于使用和可扩展的)方式来使用 Python 从/向 Spark 读取/写入 HBase 数据. 我之前探索过的内容: 使用 happybase 从我的 Pytho
..
我正在向连接到安全 hbase 集群的 YARN(在 spark 2.1.1 + kafka 0.10.2.1 上)提交作业.当我在“本地"模式(spark.master=local[*])下运行时,这项工作执行得很好. 但是,一旦我以 YARN(并将部署模式作为客户端)提交作业,我就会看到以下错误消息 - Caused by: javax.security.auth.login.Logi
..
下面的代码将从hbase读取,然后将其转换为json结构并转换为schemaRDD,但问题是我使用List来存储json字符串然后传递给javaRDD,对于大约 100 GB 的数据,master 将在内存中加载数据.从 hbase 加载数据然后执行操作,然后转换为 JavaRDD 的正确方法是什么. package hbase_reader;导入 java.io.IOException;导入
..
环境:hadoop 1.0.3、hbase 0.94.1、pig 0.11.1 我在 Java 程序中运行 Pig 脚本,有时会出现以下错误,但并非总是如此.该程序所做的是从 hdfs 加载文件,进行一些转换并将其存储到 hbase 中.我的程序是多线程的.而且我已经使 PigServer 线程安全,并且在 hdfs 中创建了“/user/root"目录.这是程序的片段和我得到的例外.请指教
..
我有一个数据集 (CSV),它具有三个值列(v1、2 和 3),其中包含一个值.值的描述以逗号分隔的字符串形式存储在 'keys' 列中. |v1 |v2 |v3 |钥匙 ||一个 |C |E |X,Y,Z | 使用 Pig 我想将此信息加载到 HBase 表中,其中列族是 C,列限定符是关键. |C:X |C:Y |C:Z ||一个 |C |E | 以前有没有人做过这件事并愿意分享这些知
..
我刚刚开始学习 pig 并尝试用它做一些事情,所以我进入 pig 控制台并简单地输入 a = load 'sample_data.csv'; (我有一个名为 sample_data.csv).我收到以下异常: Pig Stack Trace---------------错误 2998:未处理的内部错误.姓名java.lang.NoSuchFieldError: 名称在 org.apache.pi
..
这可能是一个更普遍的问题:Linux 中的许多工具都有自己的外壳.就我而言,我使用 pig 和 hbase.有时候在shell中执行一个命令,返回很多结果,我想取消它.例如,假设您执行 cat 'a.txt' 并且该文件很大.在不退出 shell 的情况下取消它的最佳方法是什么.如果我按 Ctrl+c,它将退出 shell. 解决方案 kill 将终止具有指定 id 的 mapreduce
..
我在伪分布式模式下使用 CDH4,并且在将 HBase 和 Pig 一起使用时遇到了一些问题(但两者单独工作都很好). 我正在一步一步地学习这个不错的教程:http://blog.whitepages.com/2011/10/27/hbase-storage-和-猪/ 所以我的 Pig 脚本看起来像这样 注册/usr/lib/zookeeper/zookeeper-3.4.3-cdh
..
使用 Hadoop 或 HBase 或 Hive 有什么好处? 根据我的理解,HBase 避免使用 map-reduce,并且在 HDFS 之上有一个面向列的存储.Hive 是用于 Hadoop 和 HBase 的类似 sql 的界面. 我还想知道 Hive 与 Pig 的比较. 解决方案 MapReduce 只是一个计算框架.HBase 与它无关.也就是说,您可以通过编写 M
..