hortonworks-sandbox - IT屋-程序员软件开发技术分享社区

无法使用 kafka 命令行将 json 推文事件发送到 Kafka 主题/生产者

我创建了一个 python 脚本 raw_tweets_stream.py 来使用 twitter api 流式传输 twitter 数据.使用以下脚本将来自 twitter 的 json 数据提取到 kafka 生产者. `python raw_tweets_stream.py |/usr/hdp/current/kafka-broker/bin/kafka-console-producer. ..

发布时间：2021-11-15 00:05:50 hadoop apache-kafka apache-zookeeper hortonworks-sandbox 其他开发

在spark中使用hive数据库

我是 spark 新手，正在尝试使用 HortonWorks Sandbox 在 tpcds 基准表上运行一些查询.http://www.tpc.org/tpcds/在沙箱上通过 shell 或 hive-view 使用 hive 时没有问题.问题是如果我想使用spark，我不知道如何连接到数据库.如何在 spark 中使用 hive 数据库来运行查询?到目前为止，我知道的唯一解决方案是使用以下 ..

发布时间：2021-11-14 23:08:07 apache-spark hive apache-spark-sql hortonworks-sandbox 其他开发

在spark中使用hive数据库

我是 spark 新手，正在尝试使用 HortonWorks Sandbox 在 tpcds 基准表上运行一些查询.http://www.tpc.org/tpcds/在沙箱上通过 shell 或 hive-view 使用 hive 时没有问题.问题是如果我想使用spark，我不知道如何连接到数据库.如何在 spark 中使用 hive 数据库来运行查询?到目前为止，我知道的唯一解决方案是使用以下 ..

发布时间：2021-11-14 23:03:39 apache-spark hive apache-spark-sql hortonworks-sandbox 其他开发

Apache NiFi - OutOfMemory 错误:SplitText 处理器超出了 GC 开销限制

我正在尝试使用 NiFi 使用 HDF 1.2 处理大型 CSV 文件(每个文件可能有数十亿条记录).我已经实现了我的流程，对于小文件一切正常. 问题是，如果我尝试将文件大小推到 100MB(1M 记录)，我会从 SplitText 负责将文件拆分为单个记录的处理器.我已经搜索过了，这基本上意味着垃圾收集器执行时间过长而没有获得太多堆空间.我预计这意味着太多的流文件生成得太快了. 我该 ..

发布时间：2021-11-12 03:52:53 java garbage-collection hortonworks-data-platform apache-nifi hortonworks-sandbox Java开发

无法使用 kafka 命令行将 json 推文事件发送到 Kafka 主题/生产者

我创建了一个 python 脚本 raw_tweets_stream.py 来使用 twitter api 流式传输 twitter 数据.使用以下脚本将来自 twitter 的 json 数据提取到 kafka 生产者. `python raw_tweets_stream.py |/usr/hdp/current/kafka-broker/bin/kafka-console-producer. ..

发布时间：2021-11-12 02:56:23 hadoop apache-kafka apache-zookeeper hortonworks-sandbox 其他开发

HortonWorks Sandbox 2.5 yum install python-pip无法正常工作

我正在尝试在HDP 2.5的虚拟映像上安装python pip.但是它无法引发错误. [root @ sandbox〜]#yum install python-pip 已加载的插件:最快的镜像，ovl，优先级设置安装过程从缓存的主机文件加载镜像速度玉/金属墨水|15 kB 00:00 *基础:mirror.metrocast.net* epel:mirror.metrocast.ne ..

发布时间：2021-05-14 19:22:15 python hortonworks-data-platform hortonworks-sandbox Python

为什么无法连接到127.0.0.1 HortonWorks仪表板?

我已经在Windows 10上安装了Virtual Box(版本5.2.0 r118431(Qt5.6.2))，并且导入了设备HDP_2.4_virtualbox_v3(可从 CentO完成引导后，提示我输入ip 127.0.0.1:8888，它是与教程不同的地址，并且没有服务器正在监听该地址，因为我得到了 "127.0.0.1拒绝连接."在浏览器中. 此处的图片解决 ..

发布时间：2021-05-13 20:20:37 hadoop networking virtualbox hortonworks-sandbox 其他开发

错误“没有这样的容器沙箱-hdp".尝试在RHEL7上安装Docker映像时

我正在尝试使HDP沙箱在RHEL7上运行.但是，当我尝试运行docker-deploy-hdp30.sh时，出现“没有这样的容器沙箱-hdp"错误消息. sudo sh docker-deploy-hdp30.sh+注册表= hortonworks+名称= sandbox-hdp+版本= 3.0.1+ proxyName =沙盒代理+ proxyVersion = 1.0+风味= hdp+回显 ..

发布时间：2021-05-02 19:45:25 docker hortonworks-data-platform hortonworks-sandbox 其他开发

Hortonworks沙箱是否在LinuxVM上安装?

如何在LinuxVM上安装Hortonworks沙箱?任何视频教程都将受到高度赞赏. 解决方案在Oracle虚拟机上安装Hortonworks沙箱: 从此处下载HDP沙箱并将其解压缩. 从此处下载Virtual Box，然后在Windows上安装Virtual Box. 现在打开Oracle Virtual Box，转到文件“菜单"，然后单击“导入设备". 根据您 ..

发布时间：2020-06-18 19:10:49 hadoop installation hortonworks-sandbox 其他开发

如何修复java.lang.IllegalArgumentException:无法识别的Hadoop主版本号:3.1.0?

我在查询中得到一个java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.0 exception.这是查询: WITH t1 as (select * from browserdata join citydata on cityid=id), t2 as (select uap ..

发布时间：2020-06-18 19:10:43 hadoop hive hortonworks-sandbox apache-tez 其他开发

无法使用kafka命令行将json tweets事件发送到Kafka主题/生产者

我创建了一个python脚本raw_tweets_stream.py，以使用twitter api流Twitter数据.使用以下脚本将来自twitter的json数据发送给kafka生产者. `python raw_tweets_stream.py | /usr/hdp/current/kafka-broker/bin/kafka-console-producer.sh --broker-l ..

发布时间：2020-06-18 19:10:39 hadoop apache-kafka apache-zookeeper hortonworks-sandbox 其他开发

为什么我会收到“文件只能复制到0个节点"的信息?写入分区表时?

我在带有分区的Hive中创建一个外部表，然后尝试从现有表中填充它，但是，我遇到以下异常: Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /apps/hive/warehouse/pavel ..

发布时间：2020-06-18 19:10:34 sql hive hiveql partitioning hortonworks-sandbox 其他开发

在spark中使用hive数据库

我是Spark新手，尝试使用HortonWorks Sandbox在tpcds基准表上运行一些查询。 http://www.tpc.org/tpcds/ 有在通过shell或hive-view在沙箱上使用配置单元时没有问题。问题是我不知道如何连接到数据库，如果我想使用火花。如何在火花中使用配置单元数据库来运行查询？直到现在我才知道的唯一解决方案是手动重建每个表并使用下面的scala代码 ..

发布时间：2018-06-12 14:05:43 apache-spark hive apache-spark-sql hortonworks-sandbox 其他开发

使用yum安装Apache Spark

我正在组织的HDP框中安装spark。我运行 yum install spark 并安装Spark 1.4.1。我如何安装Spark 2.0？请帮助！解决方案在HDP 2.5中支持Spark 2（作为技术预览版）。您可以将特定的HDP 2.5 repo添加到您的yum repo目录中，然后安装它。 Spark 1.6.2是HDP 2.5中的默认版本。 wget http://p ..

发布时间：2018-05-31 20:13:23 hadoop apache-spark hortonworks-sandbox 分布式计算/Hadoop

执行字数mapreduce作业时出现InterruptedException

我在我的机器上安装了Cloudera VM版本5.8。当执行字数mapreduce作业时，它会抛出异常。 `16/09/06 06:55:49 WARN hdfs .DFSClient：捕获的异常 java.lang.Object.wait（java.lang.Object.wait）中的 java.lang.Thread.join处的（Thread.java:1281） at ja ..

发布时间：2018-05-31 19:28:45 hadoop mapreduce cloudera hortonworks-data-platform hortonworks-sandbox 分布式计算/Hadoop

Apache NiFi - OutOfMemory错误：在SplitText处理器上超出了GC开销限制

我正在尝试使用NiFi来处理使用HDF 1.2的大型CSV文件（每个文件可能有数十亿条记录）。我已经实现了我的流程，并且对于小文件一切正常。问题是如果我尝试将文件大小推到100MB（1M记录），我从负责将文件拆分为单个记录的 SplitText 处理器获取 java.lang.OutOfMemoryError：超过GC开销限制。我已经搜索了这一点，它基本上意味着垃圾收集器执行时间太长而没有 ..

发布时间：2018-04-19 18:21:24 java garbage-collection hortonworks-data-platform apache-nifi hortonworks-sandbox Java开发

hortonworks-sandbox相关内容