hdp - IT屋-程序员软件开发技术分享社区

运行更大的纱线作业的主要限制是什么？我如何增加它？

运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么？我如何增加它？基本上，我希望同时执行更多(所有都很大)的SQOOP作业。我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时，这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线？)跨群集？查看Ambar ..

发布时间：2022-04-15 18:01:27 hadoop hadoop-yarn resourcemanager hdp 其他开发

zookeeper + 无法从客户端会话 ID 中读取额外数据

我们有带有 3 台 kafka 机器和 3 个 zookeeper 服务器的 hadoop 集群 hadoop 版本 - 2.6.4 (HORTONWORKS) 在zookeeper日志(/var/log/zookper )下我们看到了数百万条警告消息，例如: 2019-06-26 10:48:45,675 [myid:1] - WARN [NIOServerCxn.Fact ..

发布时间：2021-11-15 00:05:46 apache-kafka apache-zookeeper hdp 其他开发

在纱线上运行时，自定义 spark 找不到 hive 数据库

按照 https://georgheiler.com/2019/05/01/headless-spark-on-yarn/ 即以下内容: # 下载当前无头版本的spark导出 SPARK_DIST_CLASSPATH=$(hadoop 类路径)导出 HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/confexport SPARK_HOME= ..

发布时间：2021-11-14 23:23:13 apache-spark hive apache-spark-sql hadoop-yarn hdp 其他开发

如何在不使用 HDP 3.1 中的仓库连接器的情况下从 Spark 编写表以配置单元

当尝试在 HDP 3.1 上使用 spark 2.3 将没有仓库连接器的 Hive 表直接写入配置单元模式时，使用: spark-shell --driver-memory 16g --master local[3] --conf spark.hadoop.metastore.catalog.default=hiveval df = Seq(1,2,3,4).toDFspark.sql("创建数 ..

发布时间：2021-11-14 21:58:08 apache-spark hive apache-spark-sql hdp hadoop3 其他开发

错误 1066:无法在 Pig 中打开别名的迭代器，通用解决方案

Apache Pig 中一个非常常见的错误消息是: 错误 1066:无法打开别名的迭代器有几个问题提到了这个错误，但没有一个给出处理它的通用方法.因此这个问题: 收到 ERROR 1066: Unable to open iterator for alias 时该怎么办? 解决方案消息“ERROR 1066: Unable to open iterator for a ..

发布时间：2021-11-12 04:01:11 debugging apache-pig hortonworks-data-platform hdp 其他开发

zookeeper + 无法从客户端会话 ID 中读取额外数据

我们有具有 3 台 kafka 机器和 3 个 zookeeper 服务器的 hadoop 集群 hadoop 版本 - 2.6.4 (HORTONWORKS) 在zookeeper日志(/var/log/zookper )下我们看到了数百万条警告消息，例如: 2019-06-26 10:48:45,675 [myid:1] - WARN [NIOServerCxn.Fact ..

发布时间：2021-11-12 02:54:07 apache-kafka apache-zookeeper hdp 其他开发

如何在HDP的自定义版本中以无头模式运行spark?

如何在无头模式下运行spark?目前，我正在集群上的HDP 2.6.4(即默认情况下安装了2.2)上执行spark.我从https://spark.apache.org/downloads.html .确切的名称是:用scala 2.11预先构建，并且用户提供了hadoop 现在，当我尝试运行时，请遵循: https://spark.apache.org/docs/latest/hadoop ..

发布时间：2021-04-24 18:33:35 apache-spark configuration headless ambari hdp 其他开发

Spark SQL在HDP中的Hive中找不到表

我使用HDP3.1，并添加了所需的Spark2，Hive和其他服务.我打开了Hive中的ACID功能.spark作业无法在配置单元中找到表格.但是该表存在于Hive中.异常喜欢:org.apache.spark.sql.AnalysisException:找不到表或视图Spark的conf文件夹中有hive-site.xml.它是由HDP自动创建的.但这与hive的conf文件夹中的文件不同.并且 ..

发布时间：2021-04-08 20:13:29 apache-spark hive hdp 其他开发

zookeeper +无法从客户端会话ID中读取其他数据

我们有具有 3个kafka 机器和 3个zookeeper 服务器的hadoop集群. hadoop版本-2.6.4(HORTONWORKS) 在Zookeeper日志下(/var/log/zookper) 我们看到了数百万条警告消息，例如: 2019-06-26 10:48:45,675 [myid:1]-警告[NIOServerCxn.Factory 0.000.0.0/ ..

发布时间：2021-04-08 18:59:22 apache-kafka apache-zookeeper hdp 其他开发

在Http模式下通过Thrift服务器连接到HBase的Python程序

我正在尝试编写一个简单的程序以节俭方式连接到HBase服务器，该节俭以Http模式启动(集群已进行kerberized)，但我始终会收到``读取零字节错误消息'' 我已经参考了以下链接，但是仅当节俭服务器以二进制模式(??)启动时，这些示例才有效 https://github.com/joshelser/hbase-thrift1 -python-sasl/blob/master/get_r ..

发布时间：2021-02-14 21:05:43 python hbase kerberos thrift hdp Python

码头工人映像可以使用hadoop吗?

泊坞窗图像可以访问hadoop资源吗?例如.提交YARN作业并访问HDFS；类似于 MapR的Datasci.精炼厂，但适用于Hortonworks HDP 3.1. (可以假定该映像将在hadoop群集节点上启动.) 看到了hadoop docs 用于从hadoop节点启动docker应用程序，但对是否可以“另辟way径"感兴趣(例如，能够使用常规的docker -ti ...命令启动do ..

发布时间：2020-11-22 01:11:54 docker hadoop h2o hdp 其他开发

YARN作业访问的资源似乎少于Ambari YARN管理器报告的资源

尝试运行YARN进程并出错时会感到困惑.在查看ambari UI YARN部分时，看到... ➜ h2o-3.26.0.2-hdp3.1 hadoop jar h2odriver.jar -nodes 4 -mapperXmx 5g -output /home/ml1/hdfsOutputDir Determining driver host interface for mapper->dri ..

发布时间：2020-11-22 01:11:52 yarn h2o ambari hdp 其他开发

自定义spark在纱线上运行时找不到蜂巢数据库

按照# download a current headless version of spark export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/conf export SPARK_HOME=>/spark-2.4.3-bi ..

发布时间：2020-09-04 21:51:08 apache-spark hive apache-spark-sql yarn hdp 其他开发

用户是否需要在所有节点上都存在才能被hadoop集群/HDFS识别?

在MapR hadoop中，为了使用户能够访问HDFS或对程序使用YARN，他们需要在集群中的所有节点之间存在(具有相同的uid和gid)，包括既不充当数据节点也不充当控制节点的客户端节点(MapR实际上没有名称节点的概念). Hortonworks HDP是否也一样? 解决方案在Hortonworks上找到了此答案用户不应在群集的所有节点上都具有帐户.他应该只在边缘节点上有帐户. ..

发布时间：2020-06-25 18:46:12 hadoop hdfs hdp 其他开发

Spark Scala中的SaveAsTable:HDP3.x

我在Spark中有一个数据帧，我将其保存为表格中的蜂巢，但出现以下错误消息. java.lang.RuntimeException: com.hortonworks.spark.sql.hive.llap.HiveWarehouseConnector does not allow create table as select.at scala.sys.package$ ..

发布时间：2020-06-18 18:34:25 scala apache-spark hive apache-spark-sql hdp 其他开发

在Atlas实体之间添加关系的简单示例?

使用REST API在Apache Atlas中的实体之间添加关系的正确方法是什么?在查看REST API的文档时，我很难分辨出什么一些字段的含义是必需的(不是必需的)(以及如果未输入该字段会发生什么)或默认值应该是什么(由于示例使用的是看起来是占位符的值(例如，provenanceType或propagateTags字段似乎需要某种枚举值，但从未指定有效的选项). 有人可以提供真实/有效值 ..

发布时间：2020-06-18 18:34:19 hdp apache-atlas 其他开发

Hdp，Hive，横向视图和null:消失的行

由于从hdp 3.1.0升级到3.1.4，我在Hive中遇到了一些我不理解的问题.请注意，我仅使用ORC事务表. 例如以下查询: with cte as ( select e.id , '{}' as json from event e ) -- select count(*) from cte select id , lv.customfie ..

发布时间：2020-06-18 18:34:17 sql hive hdp sql-null 其他开发

Hive Warehouse Connector + Spark =签名者信息与同一软件包中其他类的签名者信息不匹配

我试图在hdp 3.1上使用hive warehouse connector和spark，即使使用最简单的示例(如下)，也要获取异常. 导致问题的类:JaninoRuntimeException-在org.codehaus.janino:janino:jar:3.0.8(spark_sql的依赖性)和com.hortonworks.hive:hive-warehouse-connector_2.1 ..

发布时间：2020-06-18 18:34:13 apache-spark hive hortonworks-data-platform hdp 其他开发

在提交mapreduce作业时，Ambari HDP为mapreduce.tar.gz抛出FileNotFoundException

使用Ambari安装新的Hadoop集群后，我尝试提交mapreduce作业，但是它抛出错误失败. 错误: java.io.FileNotFoundException: File does not exist: hdfs://xx-xx-xxx-x:8020/hdp/apps/2.2.9.0-3393/mapreduce/mapreduce.tar.gz 解决方案从Ambari ..

发布时间：2020-06-18 18:34:09 mapreduce ambari hdp 其他开发

带有Hive Metastore 3.1.0的Apache Spark 2.3.1

我们已将HDP群集升级到3.1.1.3.0.1.0-187，并发现: 蜂巢具有新的元存储位置 Spark无法看到Hive数据库实际上我们看到了: org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found 您能帮助我了解发生了什么以及如何解决吗? 更新: ..

发布时间：2020-06-18 18:34:06 apache-spark hive apache-spark-sql hive-metastore hdp 其他开发

hdp相关内容