分布式计算/Hadoop
我试图将文件导入配置单元中,并且--map-column-hive column_name = timestamp被忽略。列'column_name'最初是在sql中键入datetime,并将其转换为parquet中的bigint。我想通过sqoop将它转换为时间戳格式,但它不起作用。 sqoop import \ --table table_name \ --driver
..
我有3个.java文件 1)Mapper.java 2)Reducer.java 3)Driver.java 我试图在Driver类中使用命令行编译hadoop mapreduce程序,但它显示下面的错误 Driver.java:39:错误:找不到符号 job.setMapperClass(Mapper。类); ^ symbol:class M
..
我试图在macOS 10.12上运行一个基本的MapReduce程序,它从天气数据的日志文件中检索最高温度。在运行作业时,我收到以下堆栈跟踪: 堆栈跟踪:ExitCodeException exitCode = 126: at org .apache.hadoop.util.Shell.runCommand(Shell.java:582) at org.apache.hadoop.uti
..
我有一份工作可以将Avro文件创建到HDFS中,并将文件附加到数据中。然而,偶尔不会有任何数据需要追加,在这种情况下,我不希望应用程序刷新和关闭文件,而是应该检查文件是否为空(但我假设Avro模式将被写入这个头文件在技术上并不是一个空文件),如果它是空的,就删除它。 这对于Avro + HDFS lib是否可行? 使用 org / apache / hadoop / mapreduce /
..
我试图将数据加载到由双管道(||)分隔的配置单元表中。当我尝试这样: 示例I / P: 1405983600000 || 111.111.82.41 || 806065581 || session-id 在配置单元中创建表: create table test_hive(k1字符串,k2字符串,k3字符串,k4字符串,)以'||'结尾的行格式定界字段存储为
..
我使用Mapreduce运行wordcount,但发生错误。本地snappy库不可用:SnappyCompressor尚未加载。我认为活泼的图书馆没有被加载。但是,当我检查本地库时,快速库是可以的。我不知道如何解决它。 解决方案这取决于您安装hadoop发行版的操作系统。通常,预构建快速压缩与Hadoop一起发布,用于Ubuntu,RHEL等某些操作系统。 https://hadoop
..
我无法在配置单元1.2上运行 ALTER TABLE MY_EXTERNAL_TABLE RECOVER PARTITIONS; ,但是当我运行替换 MSCK REPAIR TABLE MY_EXTERNAL_TABLE 它只是列出了Hive Meta Store中没有的分区并且没有添加分区。基于hive-exec的源代码,我可以在 org / apache / hadoop / hive / q
..
Iam是Hadoop 2.5.1的新成员。因为我之前已经安装了Hadoop 1.0.4,所以我认为安装过程与以下教程相同。 http://www.michael-noll.com/tutorials/running-hadoop-on- ubuntu-linux-single-node-cluster / 每件事情都很好,即使我在core-site.xml中提供了这些设置
..
我想在我的java程序中传递hive-site.xml文件的位置。 自动找到这个文件的位置的最佳方法是什么在java代码中? 我不想将路径硬编码到 /etc/hive/conf/hive-site.xml for cloudera distibution 解决方案 默认情况下,Hadoop Configuration 构造函数在 CLASSPATH 中搜索目录中的“blahbl
..
您好,我使用PDFBOX外部函数库解析mapreduce中的pdf输入文件,但我收到以下错误。 $ b 错误:抛出java.lang.ClassNotFoundException: org.apache.pdfbox.pdmodel.PDDocument在 $ java.net.URLClassLoader的1.run(URLClassLoader.java:366) 在java.n
..
我们正在通过REST API调用收集JSON数据(特别是公共社交媒体帖子),我们计划将其转储到HDFS中,然后使用SerDe在其顶部抽象一个Hive表。我想知道在文件中每个JSON条目的合适分隔符是多少?是新行(“\\\ ”)?所以它看起来像这样: {id:entry1 ... post:} {id:entry2。 .. post:} ... {id:entryn ... p
..
我最近安装/配置了hadoop,并试图运行一些测试。我的问题是将本地数据复制到hdfs: 当我尝试运行时 hdfs dfs -copyFromLocal / home / develop / test / test 或任何类似的命令,所有我得到的是: pre $ copyFromLocal:`test':没有这样的文件或目录 如果我运行 ls
..
我是Pig中的新成员,并且希望使用有序的分析函数,类似于SQL中的可能。 我的数据如下所示: (b) $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ b(TAC,2001-08-07,16.3,16.54) (TAC,2001-08-08,16.55,16.44) (TAC,2001-08-09,16.45,16.48) (TAC,2001-08-10,1
..
我使用Ubuntu 14.04 OS在本地计算机上安装了单节点Hadoop。现在我要使用HDFS,并且当我输入一个简单的命令时: hdu @ hadoop:〜$ hadoop fs -ls 显示以下错误: 15/07/10 18:24:52 WARN util.NativeCodeLoader: 无法为您的平台加载native-hadoop库... 使用内建-
..
这表示函数quarter()是在Hive 1.3中引入的。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions 我使用默认版本的HDInsight(3.1)来运行Hadoop: b $ b https://azure.microsoft
..
我搜索了很多,发现WARN是因为我在尝试启动start-dfs.sh时安装hadoop后显示以下错误消息。我使用 UBUNTU 64位操作系统,hadoop是针对32位编译的。 所以这不是一个问题。 但不正确的配置是我担心的事情。也无法启动主要和次要名称节点。 sameer @ sameer-Compaq-610:〜$ start-dfs.sh 15/07/27 07: 47
..
我试图分析默认的map reduce作业,它没有定义mapper或reducer。 ,即使用IdentityMapper& IdentityReducer 为了使我自己清楚,我只写了我的身份缩减器 public static class MyIdentityReducer扩展MapReduceBase实现Reducer
..
假设我有一台分布式计算机网络,其中有1000个存储节点。 现在,如果添加了新节点,应该做什么? 意味着数据现在应该被等分为1001个节点? 如果节点范围是10而不是1000,答案也会改变。 $客户端机器首先将文件分割成块Say块A,块B,然后客户机与NameNode进行交互,要求位置放置这些块( Block A Block B).NameNode给出了clinet写入数据的datanod
..
我在Java中有两个Hive UDF,它们在Hive中完美工作 。 这两个函数都是互补的。 字符串myUDF(BigInt) BigInt myUDFReverso(String) myUDF(“myInput”)给出了一些输出,当$ myUDFReverso(myUDF(“ myInput“)) 应该返回 myInput Hive,但是当我
..
在HBase中,调用DeleteColumn()方法,即基本上对列族进行模式更改或删除列族会导致HBase Cluster停机? 解决方案 上的deleteColumn方法HBase的删除突变删除特定行中的特定列,这不是模式更改,因为HBase不保留每行的列的模式级知识(并且每行可以有不同的数目和类型列 - 认为它是一个人口稀少的矩阵)。这个对象上的deleteFamily也是如此。
..