cloudera相关内容
我只能访问Hue,正在尝试使用Hue查找CDH版本。 你能帮我搬一下吗? 推荐答案 我没有找到直截了当的答案,但这就是我在色调中找到CDH版本的原因。 我的专用宿主机版本是5.14.2
..
我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知
..
我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通
..
我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM
..
我使用以下代码将字符串DATETIME变量转换为DATETIME,但转换后的字符串缺少SSS部分。 使用的代码: cast(FROM_UNIXTIME(UNIX_TIMESTAMP(oldtime, "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"),"yyyy-MM-dd HH:mm:ss.SSS") as timestamp) as newtime 结果: 2
..
我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读有关该工具的信息时,您通常可以确定其他工具中的每一个都会被提及. 我不希望您向我解释每个工具 - 当然不会.如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了.到目前为止,我不确定以上哪一个适合,而且看
..
我正在尝试找出 Map 任务的输出在被 Reduce 任务使用之前保存到磁盘的位置. 注意: - 使用的版本是带有新 API 的 Hadoop 0.20.204 例如覆盖Map类中的map方法时: public void map(LongWritable key, Text value, Context context) throws IOException, Interrupted
..
需要一些快速帮助.我们的作业在 MapR 下运行良好,但是当我们在 Cloudera 5.1 上启动相同的作业时,它一直在本地模式下运行. 我确定这是某种配置问题.它是哪个配置设置? 14/08/22 12:16:58 INFO mapreduce.Job: map 0% reduce 0%14/08/22 12:17:03 信息 mapred.LocalJobRunner: map >地
..
我有一个“仅地图"(无缩减阶段)程序.输入文件的大小足以创建 7 个地图任务,我通过查看生成的输出 (part-000 to part006) 验证了这一点.现在,我的集群有 8 个节点,每个节点有 8 个内核和 8 GB 内存,并且共享文件系统托管在头节点上. 我的问题是我可以选择仅在 1 个节点中运行所有 7 个映射任务还是在 7 个不同的从节点中运行 7 个映射任务(每个节点 1 个任
..
我正在编写 hadoop 程序,我真的不想玩已弃用的类.在网上任何地方我都找不到更新的程序 org.apache.hadoop.conf.配置 类 org.apache.hadoop.mapred.JobConf 类. public static void main(String[] args) throws Exception {JobConf conf = new
..
我最近将集群从 Apache Hadoop1.0 升级到了 CDH4.4.0.我在另一台机器上有一个 weblogic 服务器,我通过 mapreduce 客户端将作业提交到这个远程集群.我仍然想使用 MR1 而不是 Yarn.我已经针对 CDH 安装 (/usr/lib/hadoop/client/*) 中的客户端 jar 编译了我的客户端代码 创建 JobClient 实例时出现以下错误
..
我最近在 http://www.cloudera.com 上下载了“QuickStart VM"(准确的说是virtualbox的版本)这个虚拟机使用centOS(我的电脑是macbook air)我无法完全启动这个虚拟机(我不知道为什么)我附上了最高级启动状态的截图 解决方案 我发现当您的屏幕似乎在该位置冻结时,按 [ESC] 显然是您接下来应该做的.p> 我的在那里,坐了几分钟,我点
..
当我想加载 rJava 时出现错误.JDK 已安装.(我在 CentOS 虚拟机上运行 R(cloudera demo vm cdh3u4)) >库(rJava)错误:'rJava' 的 loadNamespace() 中的 .onLoad 失败,详细信息:调用:dyn.load(file, DLLpath = DLLpath, ...)错误:无法加载共享对象'/home/cloudera/R/
..
我想使用 SAS/ACESS 9.3M2 接口将 sas 与我的 Hive 连接起来.我的问题是,sas 是否将 hive 立方体导入 sas 环境并在那里查询?或者,为了报告的目的,它再次命中 hive,因此它运行 MR,这将我的报告性能降低到 2-4 秒以上. 如果将 hive 表导入其环境,与普通 sql 多维数据集相比,其性能如何? 我对 sas 完全陌生,我希望我的报告在 2
..
我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读某个工具时,您通常可以确定将提及其他每个工具. 我不希望您向我解释每个工具 - 当然不是.如果您能帮助我针对我的特定场景缩小此设置的范围,那就太好了.到目前为止,我不确定以上哪种方法适合,而且看起来(一如既往)
..
看看这个: https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#hive_on_spark 总而言之,它说 Hive 不适用于 Cloudera 中的 Spark 2.x. 但是,我假设 Hive 确实在其他发行版中的 Spark 2.x 上运行.有没有人配置 C
..
我正在尝试建立到 Hive 的 JDBC 连接,以便我可以从 Eclipse 查看和创建表以及查询 Hive 表.我使用了 HiveClient 示例代码:https://cwiki.apache.org/confluence/display/Hive/HiveClient然后我将所有必需的 jars 添加到 eclipse 中的 java 构建路径并启动 Hive Thrift Server.端
..
标题有点奇怪,因为我很难缩小问题的范围.我在 Hadoop 2.0.0-cdh4.4.0 和 hive 0.10 上使用了我的解决方案,没有问题. 我无法使用此 SerDe 创建表:https://github.com/rcongiu/Hive-JSON-Serde 第一次尝试: FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask
..
我在 Hive 中在此位置创建了一个外部表: 创建外部表 tb(...)PARTITIONED BY (datehour INT)行格式 SERDE 'com.cloudera.hive.serde.JSONSerDe'LOCATION '/user/cloudera/data'; 数据存在于文件夹中,但是当我查询表时,它什么都不返回.表格的结构使其适合数据结构. SELECT * FROM
..
我需要在 Apache Hive 中挂钩一个自定义执行挂钩.如果有人知道怎么做,请告诉我. 我当前使用的环境如下: Hadoop:Cloudera 版本 4.1.2操作系统:Centos 谢谢,阿伦 解决方案 根据您要在哪个阶段注入自定义代码,有多种类型的钩子: 驱动程序运行挂钩(前/后) 语义分析器挂钩(前/后) 执行挂钩(前/失败/后) 客户统计信息发布者
..