cloudera相关内容

cdh3客户端与Apache Hadoop服务器0.20.xx互操作?

我们有一个基于java客户端的 hadoop-core-0.20.2-cdh3u1.jar 。 对于运行Apache分布式0.20.xx的服务器(集群)工作是否安全? 或者cloudera会破坏一些apache API吗? 谢谢 解决方案 可能是一个坏主意。尝试与使用hadoop核心版本 0.20.203.0 的客户端在使用cdh3u1的服务器上合作,并得到: org.a ..
发布时间:2018-05-31 20:20:26 分布式计算/Hadoop

如何在Cloudera hadoop中使用外部罐子?

我的集群上安装了cloudera hadoop版本4。 它包含谷歌protobuffer jar版本2.4。 在我的应用程序代码中,我使用了protobuffer 2.5版编译的protobuffer类。 这会在运行时导致未解决的编译问题。 有没有办法使用外部jar来运行map reduce作业,或者我坚持到cloudera升级他们的服务? 谢谢。 解决方案 是的,您可以 ..
发布时间:2018-05-31 20:18:16 Java开发

fs.defaultFS只侦听本地主机的端口8020

我有一台CDH4.3 all-in-one虚拟机启动并正在运行,我试图远程安装hadoop客户机。我注意到,在不更改任何默认设置的情况下,我的hadoop群集正在侦听 127.0.0.1:8020 。 [cloudera @ localhost〜] $ netstat -lent | grep 8020 tcp 0 0 127.0.0.1:8020 0.0.0.0:* LISTEN 4 ..
发布时间:2018-05-31 20:08:00 分布式计算/Hadoop

NameNode地址的URI无效

我试图建立一个 Cloudera Hadoop集群,主节点包含 namenode , secondarynamenode 和 jobtracker ,另外两个节点包含 datanode 和的TaskTracker 。 Cloudera 版本是4.6,操作系统是ubuntu精确的x64。此外,该集群正在从AWS实例创建。 ssh passwordless 也已设置, Java 安装Oracle-7。 ..
发布时间:2018-05-31 19:59:48 Java开发

将Solr HDFS数据复制到另一个群集

我有一个solr云(v 4.10)安装,位于Cloudera(CDH 5.4.2)HDFS之上,每个虚拟机包含3个solr实例,每个实例都包含每个核心的碎片。 我正在寻找一种方法来逐步将solr数据从我们的生产集群复制到我们的开发集群。有3个核心,但我只是有兴趣复制其中的一个。 我曾尝试使用Solr复制 - 备份和还原,但似乎没有将任何内容加载到开发群集中。 http:// hos ..
发布时间:2018-05-31 19:58:40 分布式计算/Hadoop

如何自动化Hadoop垃圾清理

我可以通过运行 hadoop fs -expunge 清除我的用户文件夹下的垃圾桶。这样可以清除比 fs.trash.interval 值。是否有一个清除自动发生恢复磁盘空间? 另外,我在运行expunge时看到以下输出 [cloudera @ localhost conf] $ hadoop fs -expunge 14/07/17 15:43:54信息fs.TrashPolic ..
发布时间:2018-05-31 19:55:21 分布式计算/Hadoop

无法启动CDH4辅助名称节点:NameNode地址的URI无效

我一直在尝试设置hadoop的CDH4安装。我有12台机器,标有hadoop01 - hadoop12,名称节点,作业跟踪器,所有数据节点都已正常启动。我可以查看dfshealth.jsp并查看它是否找到了所有的数据节点。 但是,每当我尝试启动辅助名称节点时,它都会发出异常: 启动Hadoop secondarynamenode:[OK] 启动secondarynamenode,记录 ..
发布时间:2018-05-31 19:52:39 分布式计算/Hadoop

连接拒绝quickstart.cloudera:8020

我正在使用Cloudera-quickstart 5.5.0 virtualbox 尝试在终端上运行此操作。正如你可以在下面,有一个例外。我已经寻找解决方案来解决这个问题,并找到了一些东西。 $ b 配置core-site.xml文件。 https://datashine.wordpress.com/2014/09/06/java-net-connectexception-connecti ..
发布时间:2018-05-31 19:43:51 分布式计算/Hadoop

在MapReduce中使用globStatus过滤输入文件

我有很多输入文件,我想根据最后附加的日期处理选定的文件。我现在困惑我在哪里使用globStatus方法来过滤掉文件。 我有一个自定义的RecordReader类,我试图在其下一个方法中使用globStatus但它没有解决。 public boolean next(Text key,Text value)throws IOException { Path filePath = fil ..
发布时间:2018-05-31 19:40:29 Java开发

使用FileInputFormat在地图方法中获取行号

我想知道是否可以在我的地图方法中获取行号? 我的输入文件只是一列值,例如, Apple Orange Banana 是否可以获得键值:1,值:Apple,键值:2,值:Orange ...在我的地图方法中? 使用CDH3 / CDH4。更改输入数据以便使用KeyValueInputFormat不是一个选项。 谢谢你。 解决方案 InputFor ..
发布时间:2018-05-31 19:38:36 分布式计算/Hadoop