分类:分布式计算/Hadoop

分布式计算/Hadoop

将负载数据发布到HIVE中

我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,另外一个配置了hive-0.13.1。 工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。 错误信息: 执行SQL命令时发生错误:load数据inpath 's3:// buckername / export / employee_1 /'到

IT屋 2018/6/1 12:44:12 喜欢

分布式计算/Hadoop

hadoop集群仅使用主节点或所有节点

我创建了一个 4节点hadoop群集。我启动所有datanode,namenode资源管理器等。 要查找我的所有节点是否在工作,我尝试了以下过程: 第1步。当所有节点都处于活动状态时运行我的程序 第2步。仅当已激活。 两种情况下的完成时间几乎都相同。 所以,我想知道是否有其他方法可以让我知道在运行程序时实际使用了多少个节点。 解决方案 在聊天中讨论。这个问题是

IT屋 2018/6/1 12:44:09 喜欢

分布式计算/Hadoop

如何使用AWS自动扩展功能扩展具有1个主节点和2个核心节点的AWS EMR群集?有没有办法?

我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在,我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt,我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。 解决方案 目前,您无法在AutoScaling组中启动EMR CLuster。但是,通过将CloudWatch警

IT屋 2018/6/1 12:44:02 喜欢

分布式计算/Hadoop

获取子目录的列表

data = sc.textFile('/ hadoop_foo / a') data.count() 240 data = sc.textFile('/ hadoop_foo / *') data.count() 168129 但是,我想要计算每个“/ hadoop_foo /”子目录的数据大小。我能做到吗? 换句话说,我想要的是这样的: d

IT屋 2018/6/1 12:43:58 喜欢

分布式计算/Hadoop

Kerberos Java凭证缓存

$ b val t1 = new Thread(){ 覆盖def run(){ println(“第一个线程的输出”) val conf = new配置 conf.set(“hadoop.security.authentication”,“Kerberos” ) conf.set(“fs.defaultFS”,“hdfs://192.168.23.206:8020”) UserGro

IT屋 2018/6/1 12:43:51 喜欢

分布式计算/Hadoop

我如何动态升级dataproc中的工作者的CPU / RAM /磁盘?

我在google dataproc中默认设置了一个集群(4个vCPU,15GB Ram)。 在完成几项猪作业后,群集有2-3个不健康的节点。 所以我升级了工作虚拟机的vCPU(4到8个vCPU),Ram(15GB到30GB)和磁盘。 但是在Hadoop Web界面中显示工作节点的硬件没有变化,但它仍然显示了原始的vCPU / Ram / Disk挂载。 我可以动态升级dataproc中

IT屋 2018/6/1 12:43:49 喜欢

分布式计算/Hadoop

Filename的一部分作为Hive Table中的一列

我想将我的文件名的第一部分作为我的Hive表中的一列 我的文件名是:20151102114450.46400_Always_1446482638967 .xml 我在Microsoft Azure的Hive中使用正则表达式编写了一个查询(查询下面)它的一部分,即20151102114450 但是当我运行查询时,我得到的输出为20151102164358

IT屋 2018/6/1 12:43:46 喜欢

分布式计算/Hadoop

Sqoop导出插入重复条目

我试图了解sqoop导出是如何工作的。我在mysql中有一个表格站点,它包含两列id和url,并包含两行 1,www.yahoo.com 2,www.gmail.com 表没有主键 当我通过执行下面的命令将条目从HDFS导出到mysql站点表时,它插入重复条目 我在HDFS中有以下项目 1,www.one.com 2 ,www.2.com

IT屋 2018/6/1 12:43:31 喜欢