cloudera相关内容
我正在尝试将关系转储到 AVRO 文件中,但出现一个奇怪的错误: org.apache.pig.data.DataByteArray 不能转换为 java.lang.CharSequence 我不使用DataByteArray(字节数组),见下面的关系描述. sensitiveSet: {rank_ID: long,name: chararray,customerId: long,VIN:
..
我正在尝试使用 pig 中的大象鸟处理数据,但我没有成功加载数据.这是我的猪脚本: 注册'lib/elephant-bird-core-3.0.9.jar';注册“lib/elephant-bird-pig-3.0.9.jar";注册“lib/google-collections-1.0.jar";注册“lib/json-simple-1.1.jar";推特 = 加载 'statuses.log
..
我有名为 part-r-000[0-9][0-9] 并且包含制表符分隔字段的文件.我可以使用 hadoop fs -text part-r-00000 查看它们,但无法使用 pig 加载它们. 我尝试过的: x = 加载 'part-r-00000';转储 x;x = 使用 TextLoader() 加载“part-r-00000";转储 x; 但这只会给我垃圾.如何使用 pig 查看文
..
我在伪分布式模式下使用 CDH4,并且在将 HBase 和 Pig 一起使用时遇到了一些问题(但两者单独工作都很好). 我正在一步一步地学习这个不错的教程:http://blog.whitepages.com/2011/10/27/hbase-storage-和-猪/ 所以我的 Pig 脚本看起来像这样 注册/usr/lib/zookeeper/zookeeper-3.4.3-cdh
..
我们刚刚从 CDH 5.3.6 升级到 5.10.0,并且在尝试写入 Kafka 主题时开始出现错误.我们对一切都有默认设置,没有启用 SSL 或 Kerberos 身份验证.当使用控制台生产者写入我的主题之一时,我收到此错误: /usr/bin/kafka-console-producer --broker-list=myhost1.dev.com:9092,myhost2.dev.com
..
我即将编写一个用于发布和使用 kafka 消息的原型.我们确实已经设置了 Cloudera 基础设施(动物园管理员、代理等),而且我已经成功地使用了 Kafka 命令行工具来生成和使用消息. 我正在使用 [org.apache.kafka/kafka_2.10 "0.8.2.1"] 作为依赖项,并且已经能够使用客户端 API 来设置 KafkaProducer 发布带有纯字符串内容的消息,并
..
我正在为 kafka 服务器使用 hortonwork Sandbox试图从 Eclipse 连接 kafka 与 java 代码.使用此配置连接生产者发送消息 metadata.broker.list=sandbox.hortonworks.com:45000serializer.class=kafka.serializer.DefaultEncoderzk.connect=sandbox.h
..
我们有 Python3 应用程序可以连接到 Hbase 并获取数据. 连接在 Kerberos Hbase Thrift 二进制协议(在 TSocket 中)运行良好,直到 Hadoop 团队将 Hadoop 系统移至 Cloudera 和 Cloudera 管理器,后者以 HTTPS 模式启动 Kerberos Hbase Thrift. 现在协议从 TSocket 更改为 HTTP
..
我目前正在尝试将hdfs挂载到ubuntu机器上的本地目录中.我正在使用hadoop-fuse-dfs软件包. 因此,我正在执行以下命令 ubuntu @ dev:〜$ hadoop-fuse-dfs dfs://localhost:8020/mnt/hdfs 输出 INFO/var/lib/jenkins/workspace/generic-package-ubuntu64-
..
我想知道如何在配置单元外部表中压缩json数据.如何做呢?我创建了这样的外部表: CREATE EXTERNAL TABLE tweets(id BIGINT,created_at STRING,来源STRING,收藏夹BOOLEAN)行格式SERDE"com.cloudera.hive.serde.JSONSerDe"位置"/user/cloudera/tweets"; 我已经设置了压缩
..
我正在本地计算机上安装cloudera Manager.尝试添加新主机时出现以下错误 安装失败.无法从代理接收心跳. 确保正确配置了主机的主机名. 确保在Cloudera Manager服务器上可访问端口7182(检查防火墙规则). 确保要添加的主机上的端口9000和9001空闲. 检查代理在/var/log/cloudera-scm-agent/所在主机上的日志添加
..
我正在使用Impala,并使用如下所示的模式从数据库中获取表的列表. 假设我有一个数据库 bank ,该数据库下的表如下所示. cust_profilecust_quarter1_transactioncust_quarter2_transactionproduct_cust_xyz........等等 现在我正在过滤 显示银行中的表格,例如"* cust *" 它正在返回预期
..
因此,我在CentOS 5上通过Cloudera Manager cdh3u5安装了Hadoop. hadoop fs -ls/ 我希望看到hdfs://localhost.localdomain:8020/的内容 但是,它已返回 file:/// 的内容 现在,不用说,我可以通过 访问我的 hdfs:// hadoop fs -ls hdfs://localhost.l
..
请提供链接,以在没有cloudera管理器的情况下在ubuntu中安装imapala.无法通过官方链接进行安装. 使用以下查询无法找到软件包黑斑羚: sudo apt-get install impala#守护程序的二进制文件sudo apt-get install impala-server#服务启动/停止脚本sudo apt-get install impala-state-stor
..
如果我按照此处的说明在纱线中定义CapacityScheduler队列 http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html 我该如何使用它? 我想运行spark作业...但是它们不应该占用所有群集,而应该在CapacityScheduler上执行,Cap
..
我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循[1],它要求使用适用于Spark 2.4的Maven(我尝试过Maven 3.6.3)在本地打包连接器[2],并导致以下问题. 错误"branch-2.4": [错误]无法在项目shc-core上执行目标net.alchim31.maven:scala-maven-plugin:3.2.2:compile(scal
..
我需要在同一cloudera服务器上使用python通过CLI从Impala访问表 我尝试了以下代码来建立连接: def query_impala(sql): cursor = query_impala_cursor(sql) result = cursor.fetchall() field_names = [f[0] for f in cursor.descr
..
我正在创建一个MapReduce简单作业。提交后,其出现以下错误 建议解决此问题 解决方案 我知道我为时已晚。但是我注意到,如果您清除Cookie,通常可以解决此问题。
..
关于Ubuntu,我是一个相当新手,但是我尝试遵循位于此处。 在步骤1,我遇到以下错误: brock @ brock-hpserver:〜$ sudo -u hdfs hdfs namenode -format 错误:未设置JAVA_HOME且找不到。 但是,尽管我可能错了,但我相信我已经正确设置了一切: brock @ brock-hpserver:〜
..
我正在尝试在Hive中转置变量,例如: Id1 Id2事件 1 1 7 2 2 3 2 2 7 至 Id1 Id2 Event_7 Event_3 1 1 1 2 2 1 1 以下是我到目前为止的内容: 创建临时表event_trans作为 选择Id1,Id2,事件 kv ['3']作为Event_3, kv ['
..