hortonworks-sandbox相关内容
我创建了一个 python 脚本 raw_tweets_stream.py 来使用 twitter api 流式传输 twitter 数据.使用以下脚本将来自 twitter 的 json 数据提取到 kafka 生产者. `python raw_tweets_stream.py |/usr/hdp/current/kafka-broker/bin/kafka-console-producer.
..
我是 spark 新手,正在尝试使用 HortonWorks Sandbox 在 tpcds 基准表上运行一些查询.http://www.tpc.org/tpcds/在沙箱上通过 shell 或 hive-view 使用 hive 时没有问题.问题是如果我想使用spark,我不知道如何连接到数据库.如何在 spark 中使用 hive 数据库来运行查询?到目前为止,我知道的唯一解决方案是使用以下
..
我是 spark 新手,正在尝试使用 HortonWorks Sandbox 在 tpcds 基准表上运行一些查询.http://www.tpc.org/tpcds/在沙箱上通过 shell 或 hive-view 使用 hive 时没有问题.问题是如果我想使用spark,我不知道如何连接到数据库.如何在 spark 中使用 hive 数据库来运行查询?到目前为止,我知道的唯一解决方案是使用以下
..
我正在尝试使用 NiFi 使用 HDF 1.2 处理大型 CSV 文件(每个文件可能有数十亿条记录).我已经实现了我的流程,对于小文件一切正常. 问题是,如果我尝试将文件大小推到 100MB(1M 记录),我会从 SplitText 负责将文件拆分为单个记录的处理器.我已经搜索过了,这基本上意味着垃圾收集器执行时间过长而没有获得太多堆空间.我预计这意味着太多的流文件生成得太快了. 我该
..
我创建了一个 python 脚本 raw_tweets_stream.py 来使用 twitter api 流式传输 twitter 数据.使用以下脚本将来自 twitter 的 json 数据提取到 kafka 生产者. `python raw_tweets_stream.py |/usr/hdp/current/kafka-broker/bin/kafka-console-producer.
..
我正在尝试在HDP 2.5的虚拟映像上安装python pip.但是它无法引发错误. [root @ sandbox〜]#yum install python-pip 已加载的插件:最快的镜像,ovl,优先级设置安装过程从缓存的主机文件加载镜像速度玉/金属墨水|15 kB 00:00 *基础:mirror.metrocast.net* epel:mirror.metrocast.ne
..
我已经在Windows 10上安装了Virtual Box(版本5.2.0 r118431(Qt5.6.2)),并且导入了设备HDP_2.4_virtualbox_v3(可从 CentO完成引导后,提示我输入ip 127.0.0.1:8888,它是与教程不同的地址, 并且没有服务器正在监听该地址,因为我得到了 "127.0.0.1拒绝连接."在浏览器中. 此处的图片 解决
..
我正在尝试使HDP沙箱在RHEL7上运行.但是,当我尝试运行docker-deploy-hdp30.sh时,出现“没有这样的容器沙箱-hdp"错误消息. sudo sh docker-deploy-hdp30.sh+注册表= hortonworks+名称= sandbox-hdp+版本= 3.0.1+ proxyName =沙盒代理+ proxyVersion = 1.0+风味= hdp+回显
..
如何在LinuxVM上安装Hortonworks沙箱?任何视频教程都将受到高度赞赏. 解决方案 在Oracle虚拟机上安装Hortonworks沙箱: 从此处下载HDP沙箱并将其解压缩. 从此处下载Virtual Box,然后在Windows上安装Virtual Box. 现在打开Oracle Virtual Box,转到文件“菜单",然后单击“导入设备". 根据您
..
我在查询中得到一个java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.0 exception.这是查询: WITH t1 as (select * from browserdata join citydata on cityid=id), t2 as (select uap
..
我创建了一个python脚本raw_tweets_stream.py,以使用twitter api流Twitter数据.使用以下脚本将来自twitter的json数据发送给kafka生产者. `python raw_tweets_stream.py | /usr/hdp/current/kafka-broker/bin/kafka-console-producer.sh --broker-l
..
我在带有分区的Hive中创建一个外部表,然后尝试从现有表中填充它,但是,我遇到以下异常: Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /apps/hive/warehouse/pavel
..
我是Spark新手,尝试使用HortonWorks Sandbox在tpcds基准表上运行一些查询。 http://www.tpc.org/tpcds/ 有在通过shell或hive-view在沙箱上使用配置单元时没有问题。问题是我不知道如何连接到数据库,如果我想使用火花。 如何在火花中使用配置单元数据库来运行查询? 直到现在我才知道的唯一解决方案是手动重建每个表并使用下面的scala代码
..
我正在组织的HDP框中安装spark。我运行 yum install spark 并安装Spark 1.4.1。我如何安装Spark 2.0?请帮助! 解决方案 在HDP 2.5中支持Spark 2(作为技术预览版)。您可以将特定的HDP 2.5 repo添加到您的yum repo目录中,然后安装它。 Spark 1.6.2是HDP 2.5中的默认版本。 wget http://p
..
我在我的机器上安装了Cloudera VM版本5.8。当执行字数mapreduce作业时,它会抛出异常。 `16/09/06 06:55:49 WARN hdfs .DFSClient:捕获的异常 java.lang.Object.wait(java.lang.Object.wait)中的 java.lang.Thread.join处的 (Thread.java:1281) at ja
..
我正在尝试使用NiFi来处理使用HDF 1.2的大型CSV文件(每个文件可能有数十亿条记录)。我已经实现了我的流程,并且对于小文件一切正常。 问题是如果我尝试将文件大小推到100MB(1M记录),我从负责将文件拆分为单个记录的 SplitText 处理器获取 java.lang.OutOfMemoryError:超过GC开销限制。我已经搜索了这一点,它基本上意味着垃圾收集器执行时间太长而没有
..