cloudera相关内容

Spark:多个Spark-并行提交

我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知 ..
发布时间:2022-04-15 17:52:50 其他开发

纱线容器内存不足

我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通 ..
发布时间:2022-04-15 17:51:37 Java开发

Hadoop DataNode未运行

我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..
发布时间:2022-02-27 17:55:47 服务器开发

搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读有关该工具的信息时,您通常可以确定其他工具中的每一个都会被提及. 我不希望您向我解释每个工具 - 当然不会.如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了.到目前为止,我不确定以上哪一个适合,而且看 ..
发布时间:2022-01-15 12:46:55 其他开发

如何在多核 8 节点集群中调度 Hadoop Map 任务?

我有一个“仅地图"(无缩减阶段)程序.输入文件的大小足以创建 7 个地图任务,我通过查看生成的输出 (part-000 to part006) 验证了这一点.现在,我的集群有 8 个节点,每个节点有 8 个内核和 8 GB 内存,并且共享文件系统托管在头节点上. 我的问题是我可以选择仅在 1 个节点中运行所有 7 个映射任务还是在 7 个不同的从节点中运行 7 个映射任务(每个节点 1 个任 ..
发布时间:2022-01-13 23:37:51 其他开发

无法初始化集群.请检查您的 mapreduce.framework.name 配置和相应的服务器地址 - 提交 job2remoteClustr

我最近将集群从 Apache Hadoop1.0 升级到了 CDH4.4.0.我在另一台机器上有一个 weblogic 服务器,我通过 mapreduce 客户端将作业提交到这个远程集群.我仍然想使用 MR1 而不是 Yarn.我已经针对 CDH 安装 (/usr/lib/hadoop/client/*) 中的客户端 jar 编译了我的客户端代码 创建 JobClient 实例时出现以下错误 ..
发布时间:2022-01-13 23:27:38 其他开发

虚拟机《Cloudera快速入门》不启动

我最近在 http://www.cloudera.com 上下载了“QuickStart VM"(准确的说是virtualbox的版本)这个虚拟机使用centOS(我的电脑是macbook air)我无法完全启动这个虚拟机(我不知道为什么)我附上了最高级启动状态的截图 解决方案 我发现当您的屏幕似乎在该位置冻结时,按 [ESC] 显然是您接下来应该做的.p> 我的在那里,坐了几分钟,我点 ..
发布时间:2022-01-13 21:46:45 其他开发

加载 rJava 时出错

当我想加载 rJava 时出现错误.JDK 已安装.(我在 CentOS 虚拟机上运行 R(cloudera demo vm cdh3u4)) >库(rJava)错误:'rJava' 的 loadNamespace() 中的 .onLoad 失败,详细信息:调用:dyn.load(file, DLLpath = DLLpath, ...)错误:无法加载共享对象'/home/cloudera/R/ ..
发布时间:2022-01-13 20:55:47 Java开发

Hadoop 与 SAS 的连接

我想使用 SAS/ACESS 9.3M2 接口将 sas 与我的 Hive 连接起来.我的问题是,sas 是否将 hive 立方体导入 sas 环境并在那里查询?或者,为了报告的目的,它再次命中 hive,因此它运行 MR,这将我的报告性能降低到 2-4 秒以上. 如果将 hive 表导入其环境,与普通 sql 多维数据集相比,其性能如何? 我对 sas 完全陌生,我希望我的报告在 2 ..
发布时间:2022-01-08 17:30:47 其他开发

搜索存储在 Hadoop 中的文档 - 使用哪种工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读某个工具时,您通常可以确定将提及其他每个工具. 我不希望您向我解释每个工具 - 当然不是.如果您能帮助我针对我的特定场景缩小此设置的范围,那就太好了.到目前为止,我不确定以上哪种方法适合,而且看起来(一如既往) ..
发布时间:2021-12-30 08:27:08 其他开发

Spark 2.x 上的 Cloudera Hive?

看看这个: https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#hive_on_spark 总而言之,它说 Hive 不适用于 Cloudera 中的 Spark 2.x. 但是,我假设 Hive 确实在其他发行版中的 Spark 2.x 上运行.有没有人配置 C ..
发布时间:2021-12-29 00:01:07 其他开发

无法从 Eclipse 建立到 Hive 的 JDBC 连接

我正在尝试建立到 Hive 的 JDBC 连接,以便我可以从 Eclipse 查看和创建表以及查询 Hive 表.我使用了 HiveClient 示例代码:https://cwiki.apache.org/confluence/display/Hive/HiveClient然后我将所有必需的 jars 添加到 eclipse 中的 java 构建路径并启动 Hive Thrift Server.端 ..
发布时间:2021-12-28 23:56:08 Java开发

Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题

标题有点奇怪,因为我很难缩小问题的范围.我在 Hadoop 2.0.0-cdh4.4.0 和 hive 0.10 上使用了我的解决方案,没有问题. 我无法使用此 SerDe 创建表:https://github.com/rcongiu/Hive-JSON-Serde 第一次尝试: FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask ..
发布时间:2021-12-28 23:51:25 其他开发

外部表不返回其文件夹中的数据

我在 Hive 中在此位置创建了一个外部表: 创建外部表 tb(...)PARTITIONED BY (datehour INT)行格式 SERDE 'com.cloudera.hive.serde.JSONSerDe'LOCATION '/user/cloudera/data'; 数据存在于文件夹中,但是当我查询表时,它什么都不返回.表格的结构使其适合数据结构. SELECT * FROM ..
发布时间:2021-12-28 23:49:20 其他开发

Hive 执行钩子

我需要在 Apache Hive 中挂钩一个自定义执行挂钩.如果有人知道怎么做,请告诉我. 我当前使用的环境如下: Hadoop:Cloudera 版本 4.1.2操作系统:Centos 谢谢,阿伦 解决方案 根据您要在哪个阶段注入自定义代码,有多种类型的钩子: 驱动程序运行挂钩(前/后) 语义分析器挂钩(前/后) 执行挂钩(前/失败/后) 客户统计信息发布者 ..
发布时间:2021-12-28 23:40:07 其他开发