hdp相关内容
运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么?我如何增加它?基本上,我希望同时执行更多(所有都很大)的SQOOP作业。 我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时,这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线?)跨群集? 查看Ambar
..
我们有带有 3 台 kafka 机器和 3 个 zookeeper 服务器的 hadoop 集群 hadoop 版本 - 2.6.4 (HORTONWORKS) 在zookeeper日志(/var/log/zookper )下 我们看到了数百万条警告消息,例如: 2019-06-26 10:48:45,675 [myid:1] - WARN [NIOServerCxn.Fact
..
按照 https://georgheiler.com/2019/05/01/headless-spark-on-yarn/ 即以下内容: # 下载当前无头版本的spark导出 SPARK_DIST_CLASSPATH=$(hadoop 类路径)导出 HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/confexport SPARK_HOME=
..
当尝试在 HDP 3.1 上使用 spark 2.3 将没有仓库连接器的 Hive 表直接写入配置单元模式时,使用: spark-shell --driver-memory 16g --master local[3] --conf spark.hadoop.metastore.catalog.default=hiveval df = Seq(1,2,3,4).toDFspark.sql("创建数
..
Apache Pig 中一个非常常见的错误消息是: 错误 1066:无法打开别名的迭代器 有几个问题提到了这个错误,但没有一个给出处理它的通用方法.因此这个问题: 收到 ERROR 1066: Unable to open iterator for alias 时该怎么办? 解决方案 消息“ERROR 1066: Unable to open iterator for a
..
我们有具有 3 台 kafka 机器和 3 个 zookeeper 服务器的 hadoop 集群 hadoop 版本 - 2.6.4 (HORTONWORKS) 在zookeeper日志(/var/log/zookper )下 我们看到了数百万条警告消息,例如: 2019-06-26 10:48:45,675 [myid:1] - WARN [NIOServerCxn.Fact
..
如何在无头模式下运行spark?目前,我正在集群上的HDP 2.6.4(即默认情况下安装了2.2)上执行spark.我从https://spark.apache.org/downloads.html .确切的名称是:用scala 2.11预先构建,并且用户提供了hadoop 现在,当我尝试运行时,请遵循: https://spark.apache.org/docs/latest/hadoop
..
我使用HDP3.1,并添加了所需的Spark2,Hive和其他服务.我打开了Hive中的ACID功能.spark作业无法在配置单元中找到表格.但是该表存在于Hive中.异常喜欢:org.apache.spark.sql.AnalysisException:找不到表或视图Spark的conf文件夹中有hive-site.xml.它是由HDP自动创建的.但这与hive的conf文件夹中的文件不同.并且
..
我们有具有 3个kafka 机器和 3个zookeeper 服务器 的hadoop集群. hadoop版本-2.6.4(HORTONWORKS) 在Zookeeper日志下(/var/log/zookper) 我们看到了数百万条警告消息,例如: 2019-06-26 10:48:45,675 [myid:1]-警告[NIOServerCxn.Factory 0.000.0.0/
..
我正在尝试编写一个简单的程序以节俭方式连接到HBase服务器,该节俭以Http模式启动(集群已进行kerberized),但我始终会收到``读取零字节错误消息'' 我已经参考了以下链接,但是仅当节俭服务器以二进制模式(??)启动时,这些示例才有效 https://github.com/joshelser/hbase-thrift1 -python-sasl/blob/master/get_r
..
泊坞窗图像可以访问hadoop资源吗?例如.提交YARN作业并访问HDFS;类似于 MapR的Datasci.精炼厂,但适用于Hortonworks HDP 3.1. (可以假定该映像将在hadoop群集节点上启动.) 看到了hadoop docs 用于从hadoop节点启动docker应用程序,但对是否可以“另辟way径"感兴趣(例如,能够使用常规的docker -ti ...命令启动do
..
尝试运行YARN进程并出错时会感到困惑.在查看ambari UI YARN部分时,看到... ➜ h2o-3.26.0.2-hdp3.1 hadoop jar h2odriver.jar -nodes 4 -mapperXmx 5g -output /home/ml1/hdfsOutputDir Determining driver host interface for mapper->dri
..
按照# download a current headless version of spark export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/conf export SPARK_HOME=>/spark-2.4.3-bi
..
在MapR hadoop中,为了使用户能够访问HDFS或对程序使用YARN,他们需要在集群中的所有节点之间存在(具有相同的uid和gid),包括既不充当数据节点也不充当控制节点的客户端节点(MapR实际上没有名称节点的概念). Hortonworks HDP是否也一样? 解决方案 在Hortonworks上找到了此答案 用户不应在群集的所有节点上都具有帐户.他应该只在边缘节点上有帐户.
..
我在Spark中有一个数据帧,我将其保存为表格中的蜂巢,但出现以下错误消息. java.lang.RuntimeException: com.hortonworks.spark.sql.hive.llap.HiveWarehouseConnector does not allow create table as select.at scala.sys.package$
..
使用REST API在Apache Atlas中的实体之间添加关系的正确方法是什么?在查看REST API的文档时,我很难分辨出什么一些字段的含义是必需的(不是必需的)(以及如果未输入该字段会发生什么)或默认值应该是什么(由于示例使用的是看起来是占位符的值(例如,provenanceType或propagateTags字段似乎需要某种枚举值,但从未指定有效的选项). 有人可以提供真实/有效值
..
由于从hdp 3.1.0升级到3.1.4,我在Hive中遇到了一些我不理解的问题.请注意,我仅使用ORC事务表. 例如以下查询: with cte as ( select e.id , '{}' as json from event e ) -- select count(*) from cte select id , lv.customfie
..
我试图在hdp 3.1上使用hive warehouse connector和spark,即使使用最简单的示例(如下),也要获取异常. 导致问题的类:JaninoRuntimeException-在org.codehaus.janino:janino:jar:3.0.8(spark_sql的依赖性)和com.hortonworks.hive:hive-warehouse-connector_2.1
..
使用Ambari安装新的Hadoop集群后,我尝试提交mapreduce作业,但是它抛出错误失败. 错误: java.io.FileNotFoundException: File does not exist: hdfs://xx-xx-xxx-x:8020/hdp/apps/2.2.9.0-3393/mapreduce/mapreduce.tar.gz 解决方案 从Ambari
..
我们已将HDP群集升级到3.1.1.3.0.1.0-187,并发现: 蜂巢具有新的元存储位置 Spark无法看到Hive数据库 实际上我们看到了: org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found 您能帮助我了解发生了什么以及如何解决吗? 更新:
..