hortonworks-data-platform相关内容
我可以使用Kafka Broker和嵌入式ZooKeeper(由Kafka提供)进行Digest-MD5身份验证,但在使用Kafka Broker和非嵌入式ZooKeeper(单独的ZooKeeper实例)进行Digest-MD5身份验证时收到以下错误消息。 请查看以下错误消息: [2018-11-05 19:44:21,536] ERROR SASL authentication f
..
我是 YARN 上的 Spark 新手,不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置,可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU,每个 CPU 6 个内核 = 12 个内核 内存:64 GB SSD:
..
我正在使用带有 hbase 和 hive 的 hortonworks 2.1.我想从 tsv 文件创建一个 hbase 表.文件在这里: id c1 c2第 1 行 1 22行 2 e1 42行 3 g1 f2行4 f1 c2行 5 d1 c2第 6 行 c1 42行 7 e1 c2行8 c1 c2行9 c1 c2行 10 c1 22 我使用的命令是: bin/hbase org.apac
..
在任何答案和评论之前.我尝试了在 Stackoverflow 中找到的几个选项,但以失败告终.以下是这些链接 - 如何在 Java 中执行 Sqoop? 如何在 Java 程序中使用 Sqoop? 如何将表从 MySQL 导入 Hive 使用Java? 如何将 SQL 数据加载到 Hortonworks? 我通过命令行在 Horton Sandbox 中尝试并成功. sqoop
..
无法从 Hive 访问通过 Spark (pyspark) 创建的 Hive 表. df.write.format("orc").mode("overwrite").saveAsTable("db.table") 从 Hive 访问时出错: 错误:java.io.IOException:java.lang.IllegalArgumentException:bucketId 超出范围:-1
..
我一直在尝试使用 sqlContext.read.format("jdbc").options(driver="org.apache.hive.jdbc.HiveDriver") 将 Hive 表放入 Spark 而无需任何成功.我已经完成研究并阅读以下内容: 如何从 spark 连接到远程 hive 服务器 Spark 1.5.1 不使用 hive jdbc 1.2.0 htt
..
使用 HDP 2.5.3,我一直在尝试调试一些 YARN 容器类路径问题. 由于 HDP 包含 Spark 1.6 和 2.0.0,因此存在一些版本冲突 我支持的用户能够在 YARN client 模式下成功使用 Spark2 和 Hive 查询,但不能从 cluster 模式下,他们会收到有关找不到表的错误,或类似的错误那是因为未建立 Metastore 连接. 我猜是设置 -
..
这是这个问题的后续问题,我在那里问什么 Hiveserver 2 thrift java 客户端API 是.如果您不需要更多背景信息,这个问题应该可以在没有该背景的情况下成立. 找不到关于如何使用 hiverserver2 thrift api 的任何文档,我把它放在一起.我能找到的最好的参考是 Apache JDBC 实现. TSocket transport = new TSocket
..
堆栈:使用 Ambari 2.1 安装 HDP-2.3.2.0-2950 源数据库架构在 sql server 上,它包含几个表,它们的主键为: 一个varchar 复合 - 两个 varchar 列或一个 varchar + 一个 int 列或两个 int 列.有一张大桌子吗?具有三个的行PK 中的列一个 int + 两个 varchar 列 根据 Sqoop 文档: Sq
..
我设置了以下流程以读取 json 数据并使用 convertRecord 处理器将其转换为 csv.但是,输出流文件只填充了单个记录(我假设只有第一条记录)而不是所有记录. 有人可以帮忙提供正确的配置吗? 源 json 数据: {"creation_Date": "2018-08-19", "Hour_of_day": 7, "log_count": 2136}{“creation_
..
尝试使用 spark-shell 读取位于 S3 中的文件: scala>val myRdd = sc.textFile("s3n://myBucket/myFile1.log")歌词:org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at :12标度>myRdd.cou
..
我正在尝试运行 Giraph 快速入门中描述的 SimpleShortestPathsVertex(又名 SimpleShortestPathComputation)示例.我使用 VirtualBox 在 Hortonworks Sandbox 实例 (HDP 2.1) 上运行它,并使用配置文件 hadoop_2.0.0 打包了 giraph.jar. 当我尝试使用 运行示例时 hado
..
我从 hortonworks 为 virtualbox 下载了 HDP 2.1.在使用 Hbase shell 的情况下使用简单命令时出现以下错误:create 't1', {NAME=> 'f1', VERSIONS => 5} Hortonworks “错误:无法从 ZooKeeper 获取主地址;znode 数据 == 空" 我需要做什么才能让 hbase 在这个沙盒环境中工作?
..
我使用的是 HDP 版本:2.6.4 您能否提供有关如何将库安装到 spark2 下的以下 python 目录的分步说明? sc.version(spark 版本)返回 res0: String = 2.2.0.2.6.4.0-91 spark2解释器名称和值如下 zeppelin.pyspark.python:/usr/local/Python-3.4.8/bin/python
..
我已将我的 hdp 集群升级到 2.5,并将 Storm-core 的拓扑依赖关系升级到 1.0.1,将 Storm-kafka 的拓扑依赖关系升级到 1.0.1.使用新的 1.0.1 依赖项部署新拓扑后,一切都在后端按预期工作,但 Storm UI 并不总是显示“Acked"、“Emitted"、“Transferred"等为零. Storm UI 显示消息“旧版本不支持 kafka 的偏
..
我在 Horton 沙箱上运行 pyspark-sql 代码 18/08/11 17:02:22 信息 spark.SparkContext:运行 Spark 1.6.3 版 # 代码从 pyspark.sql 导入 *从 pyspark.sql.types 导入 *rdd1 = sc.textFile ("/user/maria_dev/spark_data/products.csv")
..
如何使用无头 (https) 在 HDP 3.1 上配置 Spark 3.x://spark.apache.org/docs/latest/hadoop-provided.html) 与 hive 交互的 spark 版本? 首先,我已经下载并解压了 headless spark 3.x: cd ~/development/software/spark-3.0.0-bin-without-
..
我在 HDP 2.3 上有一个 Spark(版本 1.4.1)应用程序.在 YARN-Client 模式下运行时它工作正常.但是,在 YARN-Cluster 模式下运行它时,应用程序找不到我的任何 Hive 表. 我是这样提交申请的: ./bin/spark-submit--class com.myCompany.Main--master 纱线簇--num-executors 3--驱动
..
我在使用 spark csv 库加载到数据帧的 csv 文件中有一个时间戳字段.同一段代码在我的本地机器上使用 Spark 2.0 版本运行,但在 Azure Hortonworks HDP 3.5 和 3.6 上引发错误. 我已经检查过,Azure HDInsight 3.5 也在使用相同的 Spark 版本,所以我认为这不是 Spark 版本的问题. import org.apache
..
尝试使用 spark-shell 读取位于 S3 中的文件: scala>val myRdd = sc.textFile("s3n://myBucket/myFile1.log")歌词:org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at :12标度>myRdd.cou
..