cloudera-cdh相关内容

如何在hadoop 2.x中并行运行MapReduce任务?

我想要我的地图并减少任务以并行运行.但是,尽管尝试了各种技巧,但它们仍按顺序运行.我从如何在Elastic MapReduce上的Hadoop 2.4.0中设置每个节点的并发运行任务的最大精确数量,使用以下公式,可以设置并行运行的任务数量. min(yarn.nodemanager.resource.memory-mb/mapreduce.[map | reduce] .memory.mb,y ..
发布时间:2021-04-15 19:25:38 Java开发

HBase Master无法启动

我在CDH群集5.7.0中运行了HBase.在运行了几个月没有任何问题之后,hbase服务停止了,现在无法启动HBase主服务器(1个主服务器和4个区域服务器). 当我尝试在某个时候启动它时,机器挂起了,我在主日志中看到的最后一件事是: 2016-10-24 12:17:15,150 INFO org.apache.hadoop.hbase.util.FSHDFSUtils: Reco ..
发布时间:2020-11-22 19:01:09 其他开发

找不到webhdfs其余api抛出文件异常

我正在尝试使用webhdfs从命令行从cdh5计算机打开cdh4群集上cdh4群集上存在的hdfs文件,如下所示: curl -i -L“ http:// namenodeIpofCDH4:50070 / webhdfs / v1 / user / quad / source / JSONML.java?user.name = quad& op = OPEN” 即使在名称 ..
发布时间:2020-10-03 00:28:50 其他开发

本机Impala UDF(Cpp)在同一表中为同一查询中的多个调用随机提供结果为NULL

我有一个具有两个功能的本机Impala UDF(Cpp) 这两个功能是互为补充的。 字符串myUDF(BigInt) BigInt myUDFReverso(字符串) myUDF(“ myInput”)给出一些输出,当 myUDFReverso(myUDF(“ myInput”))应该返回 myInput 当我在这样的镶木桌子上运行黑斑羚查询时, ..
发布时间:2020-10-03 00:28:48 其他开发

CDH Community Edition从5.7滚动升级到5.13

有人可以让我知道如何执行CDH从5.7到5.13的滚动升级吗?在Cloudera文档中找不到有关CDH社区版滚动升级的内容吗? 编辑 按照下面的讨论,我可以手动停止,升级(通过“ 1单击安装”)和启动节点来进行升级。在下面的群集中 3 Hbase Master(1个活动和2个备用数据库) 4区域服务器 4个数据节点 1个主& 1次要名称节点 3日记节点 4 Nodema ..
发布时间:2020-10-03 00:28:44 其他开发

Cloudera Manager是否有其他选择? (CDH)

正如Cloudera官方博客所说,从6.3.3开始没有CDH的免费版本,他们将使Cloudera Manager开源,但还没有开源。 是否还有其他项目,例如Cloudera Manager?它可以通过Web UI管理Hadoop组件,尤其是属于Apache项目。 顺便说一句,HDP也不适用于新版本。 解决方案 我正在使用 Cloudera虚拟机 您仍然可以下载 docke ..
发布时间:2020-10-03 00:28:40 其他开发

为什么在Spark Shell中导入SparkSession失败,并显示“对象SparkSession不是软件包org.apache.spark.sql的成员”?

我在VM,Cloudera计算机上使用Spark 1.6.0。 我正在尝试从Spark外壳向Hive表中输入一些数据。 为此,我正在尝试使用SparkSession。但是下面的导入无效。 scala> import org.apache.spark.sql.SparkSession :33:错误:对象SparkSession不是包org.apache.spar ..
发布时间:2020-10-03 00:28:38 其他开发

Spark Streaming应用程序失败,出现KafkaException:字符串超出最大大小或IllegalArgumentException

TL; DR: 我非常简单的Spark Streaming应用程序在驱动程序中失败,并显示“ KafkaException:字符串超出最大大小”。我在执行程序中看到了相同的异常,但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用Spark Streaming从Kafka主题中读取一些消息。 这 ..

错误:java.lang.IllegalArgumentException:即使使用替代方法,比较方法也违反了其常规协定

我已经花了两天时间来解决此错误,即使我尝试了一些替代方法,也都在一些stackoverflow帖子“ -Djava.util.Arrays.useLegacyMergeSort = true”中提出了建议,但是它也不起作用。 这是我命令的详细信息及其返回错误: 命令: hadoop jar CloudBrush.jar -Djava.awt.headless = true -D ..
发布时间:2020-10-03 00:28:33 Java开发

Hive 1.1中的时间戳记问题

我在生产环境(cloudera 5.5)中的配置单元中遇到一个非常奇怪的问题,这在我的本地服务器中基本上是不可复制的(不知道为什么),即对于某些记录,我从临时表中插入时时间戳值错误插入时将字符串“ 2017-10-21 23”转换为主表,并将其转换为时间戳“ 2017-10-21 23:00:00”数据类型。 示例: 2017-10-21 23-> ; 2017-10-21 22 ..
发布时间:2020-10-03 00:26:27 其他开发

Cloudera上的Kafka-test = TOPIC_AUTHORIZATION_FAILED

我们刚刚从CDH 5.3.6升级到5.10.0,并在尝试写入Kafka主题时开始出现错误。我们在所有内容上均具有默认设置,未启用SSL或Kerberos身份验证。当使用控制台生产者写我的主题之一时,出现以下错误: / usr / bin / kafka-console-producer --broker-list = myhost1 .dev.com:9092,myhost2.dev.com ..

比较Spark中两个RDD中的数据

我可以使用以下代码在两个RDD中打印数据. usersRDD.foreach(println) empRDD.foreach(println) 我需要比较两个RDD中的数据.如何在一个RDD中将字段数据与另一个RDD中的字段数据进行迭代和比较.例如:对记录进行迭代,并检查userRDD中的名称和年龄是否与empRDD中的记录匹配,如果没有放在单独的RDD中. 我尝试使用userRD ..
发布时间:2020-09-04 06:08:58 其他开发

Spark历史记录WebUI上未显示Spark缓存RDD-存储

我在CDH-5.4.4中使用Spark-1.4.1. 我使用rdd.cache()函数,但在Spark History WebUI上的Storage tab中什么也没显示 有人有同样的问题吗?如何解决? 解决方案 您的RDD仅在被评估后才被缓存,强制评估(因此填充缓存)的最常见方法是调用count,例如: rdd.cache() // Nothing in storage ..
发布时间:2020-09-04 04:14:17 其他开发

如何检查Spark版本

如标题所示,我怎么知道CentOS中已经安装了哪个版本的spark? 当前系统已安装cdh5.1.0. 解决方案 如果您使用的是Spark-Shell,它会在一开始显示在横幅中. 以编程方式,可以使用SparkContext.version. ..
发布时间:2020-09-04 02:59:16 其他开发

如何使用oozie检查文件是否存在于HDFS位置?

如何使用Oozie检查HDFS位置中的文件是否存在? 在我的HDFS位置,每天晚上11点我都会得到一个类似test_08_01_2016.csv的文件. 我要检查11.15 PM之后该文件是否存在.我可以使用Oozie协调器作业来计划批处理. 但是如何验证HDFS中是否存在该文件? 解决方案 您可以在oozie中使用EL表达式,例如: ..
发布时间:2020-05-20 18:31:56 其他开发