cloudera相关内容
我使用的是 Spark 1.6 (Cloudera 5.8.2) 并尝试了以下方法来配置 ORC 属性.但是不影响输出. 下面是我试过的代码片段. DataFrame 数据帧 =hiveContext.createDataFrame(rowData, schema);dataframe.write().format("orc").options(new HashMap(){{put("o
..
作为从 Hortonworks 数据平台 (HDP v3.x) 迁移到 Cloudera 数据平台 (CDP) 7.1 版的一部分,我们正在测试我们的 Hadoop 应用程序.在测试时,我们在尝试创建托管 Hive 表时发现了以下问题.请就可能的解决方案提出建议.谢谢! 错误:编译语句时出错:失败:执行错误,从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回
..
我刚开始从事一些 hadoop/hbase MapReduce 工作(使用 cloudera),我有以下问题: 比方说,我们有一个带有 main 和静态变量的 java 类.该类定义了对应于 Mapper 和 Reducer 任务的内部类.在开始工作之前,主要初始化静态变量.该变量在 Mapper 类中读取.然后在集群上使用“hadoop jar"启动该类. 我的问题:我看不到其他节点
..
我最近将我的集群从 Apache Hadoop1.0 升级到 CDH4.4.0.我在另一台机器上有一个 weblogic 服务器,我从那里通过 mapreduce 客户端向这个远程集群提交作业.我仍然想使用 MR1 而不是 Yarn.我已经针对 CDH 安装 (/usr/lib/hadoop/client/*) 中的客户端 jar 编译了我的客户端代码 创建 JobClient 实例时出现以
..
我有一个基于 cloudera 的 6 节点 hadoop 集群,我正在尝试从 oozie 中的 sqoop 操作连接到 oracle 数据库. 我已将我的 ojdbc6.jar 复制到 sqoop lib 位置(对我来说恰好位于:/opt/cloudera/parcels/CDH-4.2.0-1.cdh4.2.0.p0.10/lib/sqoop/lib/) 在所有节点上,并已验证我可以从所
..
我使用的是 Cloudera Hadoop.我能够运行简单的 mapreduce 程序,在其中我提供一个文件作为 MapReduce 程序的输入. 此文件包含所有其他要由映射器函数处理的文件. 但是,我有一点被卡住了. /folder1- 文件 1.txt- file2.txt- file3.txt 如何将 MapReduce 程序的输入路径指定为 "/folder1",以便它可以
..
我正在使用 CDH4 并使用新的 mapreduce API 编写了一个 MapReduce 应用程序.我已经针对 hadoop-core-1.0.3.jar 编译了它,当我在我的 Hadoop 集群上运行它时出现错误: 错误:找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类 我参考了这个 StackOverflow 问题
..
这是我们使用 apache spark 和 hadoop 等大数据的第一步. 我们已经安装了 Cloudera CDH 5.3.我们选择从 cloudera manager 安装 spark.Spark 在集群中的一个节点中启动并运行良好. 在我的机器上,我制作了一个小应用程序,它可以连接读取存储在 hadoop HDFS 上的文本文件. 我正在尝试从 Eclipse 运行应用程
..
我使用的是 Hadoop-2.4.0,我的系统配置是 24 核,96 GB RAM. 我正在使用以下配置 mapreduce.map.cpu.vcores=1yarn.nodemanager.resource.cpu-vcores=10yarn.scheduler.minimum-allocation-vcores=1yarn.scheduler.maximum-allocation-vc
..
我正在尝试导入 cloudera 的 org.apache.hadoop:hadoop-client:2.0.0-cdh4.0.0 from cdh4 maven repo in a maven project in eclipse 3.81, m2e plugin, with oracle's jdk 1.7.0_05 on win7 using org.apache.had
..
我使用 CDH 5.3.3 并使用 hive JDBC 驱动程序连接到安全集群中的 hive.我尝试使用 使用 keytab 登录 UserGroupInformation.loginUserFromKeytab(lprincipal, keytabpath); 我对 hive url 使用了以下格式. jdbc:hive2://localhost:10000;AuthMech=1
..
我是新来的火花.现在我可以在纱线 (2.0.0-cdh4.2.1) 上运行 spark 0.9.1.但是执行后没有日志. 以下命令用于运行 spark 示例.但是在历史服务器中找不到正常 MapReduce 作业中的日志. SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.0.0-cdh4.2.1.jar
..
mark@maestro1:/usr/lib/hadoop/wordcount_classes$ javac -classpath/usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar:/usr/lib/hadoop/客户端/hadoop-mapreduce-client-core-2.0.0-cdh4.0.1.jar -d/usr/lib/hadoop/
..
我们刚刚从 CDH 5.3.6 升级到 5.10.0,并且在尝试写入 Kafka 主题时开始出现错误.我们对一切都有默认设置,没有启用 SSL 或 Kerberos 身份验证.当使用控制台生产者写入我的主题之一时,我收到此错误: /usr/bin/kafka-console-producer --broker-list=myhost1.dev.com:9092,myhost2.dev.com
..
我已经在上面安装了 cloudera 和 hdfs、mapreduce、zookeper、hbase.具有这些服务的 4 个节点(3 个动物园管理员).所有都由 cloudera 向导安装,并且在 cloudera 中没有配置问题.从 java 连接时出现错误: 9:32:23.020 [main-SendThread()] 信息 org.apache.zookeeper.ClientCnx
..
我只是尝试使用 java 客户端连接到 hbase,它是 cloudera-vm 的一部分. (192.168.56.102 是虚拟机的 inet ip) 我使用只有主机网络设置的虚拟机. 这样我就可以访问hbase master的webUI@http://192.168.56.102:60010/master.jsp 我的 java 客户端(在 vm 本身上运行良好)也建
..
我正在尝试通过 Java 程序访问 Hive 表,但看起来我的程序在默认数据库中没有看到任何表.但是,我可以看到相同的表并通过 spark-shell 查询它们.我已经在 spark conf 目录中复制了 hive-site.xml.唯一的区别 - spark-shell 运行的是 spark 1.6.0 版,而我的 java 程序运行的是 Spark 2.1.0 包 spark_210_te
..
我是新来的火花.现在我可以在纱线 (2.0.0-cdh4.2.1) 上运行 spark 0.9.1.但是执行后没有日志. 以下命令用于运行 spark 示例.但是在历史服务器中找不到正常 MapReduce 作业中的日志. SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.0.0-cdh4.2.1.jar
..
我有一个 PIG 脚本 从 csv 加载和转换数据 替换一些字符 调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52转换为2015-6-2 18:52 (mm/DD/yyyy to yyyy-MM-dd) 注册/home/cloudera/DateTime.jar;A = Load '/user/cloudera/Data.csv' using Pig
..
我在启动 pig 脚本时遇到了 Java 问题,似乎是某些依赖项或版本冲突,正在运行 Debian/Cloudera CDH4/Apache Pig java.lang.Exception: java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.Counter, but class
..