cloudera相关内容
我正在使用Cloudera 5.6试图在基于另一个表的hive表中创建parquet格式表,但我遇到了一个错误。 create table sfdc_opportunities_sandbox_parquet like sfdc_opportunities_sandbox STORED AS PARQUET 错误消息 Parquet不支持日期。请参阅HIVE
..
我有一个oozie工作流程,运行在一台由4台机器组成的CDH4集群上(一台主机一台,三台“哑巴”工人)。配置单元Metastore使用mysql(驱动程序存在)在主服务器上运行,oozie服务器也使用mysql在主服务器上运行。使用Web界面,我可以按预期方式导入和查询配置单元,但是当我在oozie工作流程中执行相同的查询时,它会失败。即使添加“IF EXISTS”也会导致下面的错误。我尝试将连接
..
CREATE EXTERNAL TABLE tb ( ... ) PARTITIONED BY(datehour INT) 行格式SERDE'com.cloudera.hive.serde.JSONSerDe' LOCATION'/ user / cloudera /数据'; 数据存在于文件夹中,但是当我查询表格时,它不会返回任何内容。该表的结构适合数据结构。
..
标题有点奇怪,因为我很难缩小这个问题。我在Hadoop 2.0.0-cdh4.4.0和hive 0.10上使用了我的解决方案,没有问题。 我无法使用此SerDe创建表: https://github.com/rcongiu/Hive-JSON-Serde FAILED:执行错误,从org.apache.hadoop.hive.ql.exec返回代码1。 DDLTask。 org.ap
..
我使用的是Cloudera的Hive版本,并尝试在包含第一列中的列名的csv文件上创建外部表。 CREATE EXTERNAL TABLE测试( RecordId int,$ b)这是我使用的代码。 $ b姓名字符串, 姓氏字符串 ) 行格式serde'com.bizo.hive.serde.csv.CSVSerde' 与SerDeProperties( “separatorChar”
..
在执行hdfs dfs -ls命令时,我想知道结果是存储在群集中的所有文件,还是只是执行它的节点中的分区。 我是hadoop中的一个newby,我在每个节点中都会遇到一些问题。 谢谢 问题:“...如果结果是存储在集群中的所有文件或......” 您从 ls 命令中看到的是集群中存储的所有文件。更具体地说,你看到的是一堆文件路径和名称。这些信息是命名空间的一部分,由Namenode
..
我需要遵循什么程序才能将新的 NameNode数据目录(dfs.name.dir,dfs.namenode.name.dir)正确添加到现有 生产集群?我在hdfs-site.xml文件中添加了以逗号分隔的列表的新路径,但是当我尝试启动namenode时,出现以下错误: 目录/ data / nfs / dfs / nn处于不一致状态:存储目录不存在或无法访问。 在我的情况下,我有两个
..
使用Cloudera Manager时,我可以通过以下途径访问hdfs-site.xml文件: Cloudera Manager> Cluster> HDFS> Instances>(例如NameNode)> Processes COnfiguration Files > hdfs-site.xml 然后URL指向: http://quickstart.cloudera:718
..
我试图连接到在Cloudera上运行的我的HDFS实例。我的第一步是启用Kerberos并创建Keytabs(如图所示这里)。 在接下来的步骤中,我想用密钥表进行身份验证。 配置conf = new Configuration(); conf.set(“fs.defaultFS”,“hdfs:// cloudera:8020”); conf.set(“hadoop.securi
..
使用CDH 5.7.2-1.cdh5.7.2.po.18,我试图使用Cloudera Manager将HBase配置为使用可见性标签和授权,如下面的Cloudera社区帖子中所述: 使用Cloudera Manager,我已成功更新了“Cloudera Manager Hbase可见性标签”以下属性的值: hbase.coprocessor.region.classes:设置为org.
..
我已经安装了cloudera和hdfs,mapreduce,zookeper,hbase。 4个节点与这些服务(3 zookeeper)。所有这些都由cloudera向导安装,并且在cloudera中没有配置问题。 从java连接我有一个错误: lockquote 9:32:23.020 [main-SendThread()] INFO org .apache.zookeeper.C
..
我已经在Ubuntu 12.04上安装了HBase 0.92.1-cdh4.0.1,在伪分布式模式。 hbase-master , hbase-regionserver 和 zookeeper-server >正在这台机器上运行; 因为HDFS在另一台机器上运行(相应地设置了属性 hbase.rootdir )。 现在我遇到了“hbase shell”的问题:每当我提交一个create
..
我试图在python中使用hbase,并且我正在使用cloudera存储库来安装hadoop / hbase软件包。它似乎工作,因为我可以使用shell访问和使用数据库的工作,但它不完全在python中工作。 我知道与hbase沟通我需要节俭,所以我从源代码下载和编译,我可以导入thrift到python,但是当我从hbase导入Hbase 执行时,我得到模块未找到错误。 有人知道我需
..
(192.168.56.102是vm的inet ip)我试图连接到hbase,它是cloudera-vm的一部分, 我使用虚拟主机的网络设置。 所以我可以访问hbase master的webUI @ http://192.168.56.102:60010/master.jsp 另外我的java客户端(在vm上运行得很好)建立了连接到192.168.56.102:2181 但
..
无论如何,我可以在Solr中创建索引以从HBase进行近实时全文搜索。 我不想将整个文本存储在我的索引索引中。制作“stored = false” 注意:请记住,我正在处理大型数据集并希望做近实时搜索。我们正在说TB / PB的数据。 已更新 Cloudera发行版:5.4.x与Cloudera搜索组件。 Solr:4.10.x HBase:1.0.x 索
..
感谢Cloudera发行版本,我在本地机器上运行了HBase master / datanode + Thrift服务器,并且可以编写和测试HBase客户端程序并使用它,没有问题。 但是,我现在需要在生产环境中使用Thrift,并且我无法找到有关如何使用生产HBase集群运行Thrift的文档。 客户端节点上运行hbase-thrift程序,因为Thrift程序只是HBase的另一个中
..
我在Amazon EC2的Linux RHEL 7.2实例中安装了Cloudera 5.8。我使用SSH登录,并试图运行wordcount示例以使用以下命令测试mapreduce操作: hadoop jar /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/hadoop-mapreduce/hadoop-mapreduce-examp
..
我想在我的java程序中传递hive-site.xml文件的位置。 自动找到这个文件的位置的最佳方法是什么在java代码中? 我不想将路径硬编码到 /etc/hive/conf/hive-site.xml for cloudera distibution 解决方案 默认情况下,Hadoop Configuration 构造函数在 CLASSPATH 中搜索目录中的“blahbl
..
我尝试使用java客户端(使用Cloudera-quickstart-vm-5.5.0.0-vmware播放器)将数据加载到hbase中。 代码: package com.hbase.stock.record; import java.io.IOException; 导入org.apache.hadoop.conf.Configuration; 导入org.apache.
..
我有一个PIG脚本 加载和转换csv中的数据 替换一些字符 调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52至2015-6-2 18:52(mm / DD / yyyy至yyyy-MM-dd) 注册/ home / Cloudera的/ DateTime.jar; A =使用PigStorage(',')加载'/user/cloudera
..