分布式计算/Hadoop

Sqoop函数'--map-column-hive'被忽略

我试图将文件导入配置单元中,并且--map-column-hive column_name = timestamp被忽略。列'column_name'最初是在sql中键入datetime,并将其转换为parquet中的bigint。我想通过sqoop将它转换为时间戳格式,但它不起作用。 sqoop import \ --table table_name \ --driver ..
发布时间:2018-06-01 12:43:16 分布式计算/Hadoop

如何防止将空的Avro文件提交到HDFS?

我有一份工作可以将Avro文件创建到HDFS中,并将文件附加到数据中。然而,偶尔不会有任何数据需要追加,在这种情况下,我不希望应用程序刷新和关闭文件,而是应该检查文件是否为空(但我假设Avro模式将被写入这个头文件在技术上并不是一个空文件),如果它是空的,就删除它。 这对于Avro + HDFS lib是否可行? 使用 org / apache / hadoop / mapreduce / ..
发布时间:2018-06-01 12:42:57 分布式计算/Hadoop

我如何在Hive中执行双分隔符(||)?

我试图将数据加载到由双管道(||)分隔的配置单元表中。当我尝试这样: 示例I / P: 1405983600000 || 111.111.82.41 || 806065581 || session-id 在配置单元中创建表: create table test_hive(k1字符串,k2字符串,k3字符串,k4字符串,)以'||'结尾的行格式定界字段存储为 ..
发布时间:2018-06-01 12:42:52 分布式计算/Hadoop

如何解决本地snappy库不可用:SnappyCompressor尚未加载?

我使用Mapreduce运行wordcount,但发生错误。本地snappy库不可用:SnappyCompressor尚未加载。我认为活泼的图书馆没有被加载。但是,当我检查本地库时,快速库是可以的。我不知道如何解决它。 解决方案这取决于您安装hadoop发行版的操作系统。通常,预构建快速压缩与Hadoop一起发布,用于Ubuntu,RHEL等某些操作系统。 https://hadoop ..
发布时间:2018-06-01 12:42:50 分布式计算/Hadoop

在java代码中找到hive-site.xml的位置

我想在我的java程序中传递hive-site.xml文件的位置。 自动找到这个文件的位置的最佳方法是什么在java代码中? 我不想将路径硬编码到 /etc/hive/conf/hive-site.xml for cloudera distibution 解决方案 默认情况下,Hadoop Configuration 构造函数在 CLASSPATH 中搜索目录中的“blahbl ..
发布时间:2018-06-01 12:42:38 分布式计算/Hadoop

Mapreduce Hadoop的PDF输入格式

您好,我使用PDFBOX外部函数库解析mapreduce中的pdf输入文件,但我收到以下错误。 $ b 错误:抛出java.lang.ClassNotFoundException: org.apache.pdfbox.pdmodel.PDDocument在 $ java.net.URLClassLoader的1.run(URLClassLoader.java:366) 在java.n ..
发布时间:2018-06-01 12:42:35 分布式计算/Hadoop

Hive表格的JSON文件的条目分隔符

我们正在通过REST API调用收集JSON数据(特别是公共社交媒体帖子),我们计划将其转储到HDFS中,然后使用SerDe在其顶部抽象一个Hive表。我想知道在文件中每个JSON条目的合适分隔符是多少?是新行(“\\\ ”)?所以它看起来像这样: {id:entry1 ... post:} {id:entry2。 .. post:} ... {id:entryn ... p ..
发布时间:2018-06-01 12:42:28 分布式计算/Hadoop

将本地数据复制到hadoop hdfs错误

我最近安装/配置了hadoop,并试图运行一些测试。我的问题是将本地数据复制到hdfs: 当我尝试运行时 hdfs dfs -copyFromLocal / home / develop / test / test 或任何类似的命令,所有我得到的是: pre $ copyFromLocal:`test':没有这样的文件或目录 如果我运行 ls ..
发布时间:2018-06-01 12:42:23 分布式计算/Hadoop

Hadoop Pig有序分析函数

我是Pig中的新成员,并且希望使用有序的分析函数,类似于SQL中的可能。 我的数据如下所示: (b) $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ b(TAC,2001-08-07,16.3,16.54) (TAC,2001-08-08,16.55,16.44) (TAC,2001-08-09,16.45,16.48) (TAC,2001-08-10,1 ..
发布时间:2018-06-01 12:42:16 分布式计算/Hadoop

hadoop fs -ls不起作用

我使用Ubuntu 14.04 OS在本地计算机上安装了单节点Hadoop。现在我要使用HDFS,并且当我输入一个简单的命令时: hdu @ hadoop:〜$ hadoop fs -ls 显示以下错误: 15/07/10 18:24:52 WARN util.NativeCodeLoader: 无法为您的平台加载native-hadoop库... 使用内建- ..
发布时间:2018-06-01 12:42:13 分布式计算/Hadoop

hadoop安装和配置问题

我搜索了很多,发现WARN是因为我在尝试启动start-dfs.sh时安装hadoop后显示以下错误消息。我使用 UBUNTU 64位操作系统,hadoop是针对32位编译的。 所以这不是一个问题。 但不正确的配置是我担心的事情。也无法启动主要和次要名称节点。 sameer @ sameer-Compaq-610:〜$ start-dfs.sh 15/07/27 07: 47 ..
发布时间:2018-06-01 12:42:04 分布式计算/Hadoop

将节点添加到分布式系统的数据划分

假设我有一台分布式计算机网络,其中有1000个存储节点。 现在,如果添加了新节点,应该做什么? 意味着数据现在应该被等分为1001个节点? 如果节点范围是10而不是1000,答案也会改变。 $客户端机器首先将文件分割成块Say块A,块B,然后客户机与NameNode进行交互,要求位置放置这些块( Block A Block B).NameNode给出了clinet写入数据的datanod ..
发布时间:2018-06-01 12:41:34 分布式计算/Hadoop

删除HBase中的列

在HBase中,调用DeleteColumn()方法,即基本上对列族进行模式更改或删除列族会导致HBase Cluster停机? 解决方案 上的deleteColumn方法HBase的删除突变删除特定行中的特定列,这不是模式更改,因为HBase不保留每行的列的模式级知识(并且每行可以有不同的数目和类型列 - 认为它是一个人口稀少的矩阵)。这个对象上的deleteFamily也是如此。 ..
发布时间:2018-06-01 12:41:19 分布式计算/Hadoop