cloudera相关内容
我在一台机器上以伪分布模式安装了Cloudera CDH4发行版,并成功测试了它的工作正常(例如,可以运行MapReduce程序,在Hive服务器上插入数据等)。但是,如果我有机会 core-site.xml 文件将 fs.default.name 设置为机器名称而不是 localhost 并重新启动NameNode服务,HDFS进入安全模式。 在更改 fs.default之前。名称,我运行
..
我迷失在:Hadoop,Hbase,Lucene,Carrot2,Cloudera,Tika,ZooKeeper,Solr,Katta,Cascading,POI ... 当你阅读关于你可以经常确定其他工具将被提及的那个。 我不指望你向我解释每一个工具 - 当然不是。如果你能帮我缩小这个特定场景的话,那就太好了。到目前为止,我不确定上述哪一种方法是合适的,它看起来像(一如既往)那里有更
..
我正在使用 Hadoop-2.4.0 ,我的系统配置是24核心,96 GB内存。 我正在使用以下配置: mapreduce.map.cpu.vcores = 1 yarn.nodemanager.resource.cpu -vcores = 10 yarn.scheduler.minimum-allocation-vcores = 1 yarn.scheduler.max
..
我正在使用Cloudera在我正在玩的VM机器上。不幸的是我有问题将数据复制到HDFS,我得到以下内容: pre code $ [cloudera @ localhost〜] $ hadoop fs -mkdir输入 mkdir:权限被拒绝:user = cloudera,access = WRITE,inode =“/ user”:hdfs:supergroup:drwxr-xr-x
..
我正在写hadoop程序,我真的不想玩弃用的类。 在线任何地方我无法找到更新的程序 org.apache.hadoop.conf.Configuration insted of org。 apache.hadoop.mapred.JobConf class。 public static void main(String [] args)throws Excepti
..
我试图使用flume将twitter数据转换为hdfs: https:/ /github.com/cloudera/cdh-twitter-example/ 无论我在这里尝试什么,它都会在HDFS中创建大小不等的文件,大小从1.5kB到15kB,我希望看到大文件(64Mb)。 以下是代理配置: TwitterAgent.sources = Twitter TwitterAgen
..
我正在用Java写一个HBase客户端。第一行,coz,看起来像这样: import org.apache.hadoop.conf.Configuration; 我使用的是Cloudera CDH4.3.1,因此软件包版本应该是: hadoop-2.0.0 + 1367 hbase-0.94.6 + 106 == 更新 == 我的pom.xm
..
我刚开始研究一些hadoop / hbase MapReduce作业(使用cloudera),并且我有以下问题: 比方说,我们有一个java类,主要和一个静态变量。该类定义了与Mapper和Reducer任务相对应的内部类。 在开始工作之前,主要初始化静态变量。该变量在Mapper类中读取。然后使用群集上的'hadoop jar'启动该类。 我的问题:我没有看到其他节点上的Map和R
..
我在伪分布式模式下使用CDH4,并且与HBase和Pig一起工作时遇到了一些麻烦(但两者都可以正常工作)。 我正在关注一步一步这个很好的教程: http://blog.whitepages。因此,我的猪脚本看起来像这样 $ b $ / $ / $> b 注册/usr/lib/zookeeper/zookeeper-3.4.3-cdh4.1.2.jar 注册/ usr / lib /
..
我正在使用Cloudera Hadoop。我能够运行简单的mapreduce程序,我提供一个文件作为MapReduce程序的输入。 该文件包含要由mapper函数处理的所有其他文件。 / p> 但是,我一直在坚持。 / folder1 - file1.txt - file2.txt - file3.txt 如何将MapReduce程序的
..
我使用CDH4并使用新的mapreduce API编写了MapReduce应用程序。我将它编译为hadoop-core-1.0.3.jar,当我在Hadoop集群上运行它时,出现错误: $ b 错误:Found interface org.apache .hadoop.mapreduce.TaskAttemptContext,但期望类 我提到这个StackOverflow问题,这似乎是在
..
我使用CDH 5.3.3并使用配置单元JDBC驱动程序连接到安全集群中的配置单元。我尝试使用keytab登录使用 UserGroupInformation.loginUserFromKeytab(lprincipal,keytabpath); 我已经使用以下格式为蜂巢URL。 jdbc:hive2:// localhost:10000; AuthMech = 1; KrbReal
..
我想将每周从ftp服务器上下载的文件自动化到CDH5 hadoop群集中。最好的办法是什么? 我正在考虑一个Oozie协调员的工作,但我想不出一个好的方法来下载文件。 解决方案 由于您使用CDH5,值得注意的是 NFSv3 与HDFS的接口包含在该Hadoop发行版中。您应该检查“ CDH5安装指南“文档中的”配置NFSv3网关“。 一旦完成,您可以使用wget,curl,py
..
我有一个 Hadoop 的环境。我在这个系统中使用 Flume , Hue 和 Cassandra 现在有一个围绕 Docker 的大炒作,所以想在这种情况下检查码头化的优缺点。我认为它应该更加便携,但可以使用 Cloudera Manager 点击几下设置。它可能更快还是为什么值得吗?有什么优点? 也许应该只有多个节点 Cassandra cluster dockerized? 解决方案
..
我正在基于 Docker 的环境中的多节点 Hadoop 集群的计划阶段。所以它应该是基于一个轻量级易于使用的虚拟化系统。 当前架构(关于文档)包含1个主节点和3个从节点。该主机使用 HDFS 文件系统和 KVM 进行虚拟化。 整个云由 Cloudera Manager 管理。在这个集群上安装了几个Hadoop模块。还有一个 NodeJS 数据上传服务。 这一次,我应该建立一个基于Docke
..
我有一个6节点cloudera的hadoop集群,我试图从oozie的一个sqoop动作连接到一个oracle数据库。 我已经复制了我的ojdbc6 .jar到所有节点的sqoop lib位置(对我来说恰好是在/opt/cloudera/parcels/CDH-4.2.0-1.cdh4.2.0.p0.10/lib/sqoop/lib/)并验证我可以从所有6个节点运行一个简单的“sqoop e
..
我有两个Hadoop集群,两个都运行相同的Hadoop版本。我还在两个集群中都有一个用户“testuser”(示例)(因此testuser keytabs同时存在)。 Namenode# 1(源群集):hdfs:// nn1:8020 Namenode#2(目标群集):hdfs:// nn2:8020 我想使用hadoop distcp将一些文件从一个集群复制到另一个集群
..
我已按照这里的步骤进行安装程序当我到达检查角色分配阶段时,我只看到一个托管主机: localhost.localdomain 。 任何后续尝试添加其他主机的结果相同: 每个群集主机安装成功 且主机不显示为托管 我缺少什么? 更新:我不想回答我自己的问题,所以我在这里写我的回答。 解决方案是如此明显,我的云没有看到它,并留下了问题未解决了一段时间,直到它打我,当做一些
..
我最近在 http://www.cloudera.com 下载了“QuickStart VM” (正确的是virtualbox的版本) 这个虚拟机使用centOS(和我的电脑是一个macbook空气) 我不能完全启动这个虚拟机(我不知道为什么) 我附上了最高级引导状态的屏幕截图 解决方案 有类似的问题。修正: 下载cloudera-quickstart-vm封存。 li>
..
当我想加载rJava时出现错误。 JDK已安装。 (我在CentOS VM上运行R(cloudera demo vm cdh3u4)) >库(rJava) 错误:.onLoad在loadNamespace()中为'rJava'失败,详细信息: call:dyn.load(file,DLLpath = DLLpath,...) 错误:无法加载共享对象'/home/cloudera/R/x
..