分布式计算/Hadoop

LINES TERMINATED BY现在只支持换行符'\\\
'

我有文件的列由char(30)分隔,行由char(31)分隔。我使用这些分隔符主要是因为列可能包含换行符(\\\ ),所以对于我们来说,配置单元的默认行分隔符对我们没有用。 我试过了要更改配置单元中的行分隔符,但会得到以下错误: LINES TERMINATED BY仅支持换行'\\\ '。 任何建议? 编写自定义SerDe可能工作吗? 是否有计划在新版本中增强hiv ..
发布时间:2018-05-31 20:29:04 分布式计算/Hadoop

执行hive中的select查询时出错

我使用的是hadoop 1.1.2,hbase 0.94.8和hive 0.14。 我试图在hbase中使用配置单元和加载数据在其中创建一个表格,稍后通过插入覆盖。 目前,我能够创建表: CREATE TABLE hbase_table_emp(id int,name string,role string) STORED BY'org.apache。 hadoop.hive.hb ..
发布时间:2018-05-31 20:29:01 分布式计算/Hadoop

InputFormat决策

我试图找出哪些给出的答案最适合这个问题: 给定一个具有以下结构的文件目录:行号, 制表符,字符串: Example : 1abialkjfjkaoasdfjksdlkjhqweroij 2kadfjhuwqounahagtnbvaswslmnbfgy 3kjfteiomndscxeqalkzhtopedkfsikj 您希望将每行作为一条记录发送给Mapper。 ..
发布时间:2018-05-31 20:28:56 分布式计算/Hadoop

HDP 2.4,如何在一个文件中使用flume收集hadoop mapreduce日志,以及最佳做法是什么

我们正在使用HDP 2.4,并且有许多以各种方式编写的缩减地图作业(Java MR / Hive /等)。日志在应用程序ID下收集在hadoop文件系统中。我想收集应用程序的所有日志,并将其追加到单个文件(一台机器的hdfs或OS文件)中,以便我可以无需麻烦地在单个位置分析我的应用程序日志。还建议我在HDP 2.4中实现的最佳方式(栈版本信息=> HDFS 2.7.1.2.4 / YARN 2.7 ..
发布时间:2018-05-31 20:28:54 分布式计算/Hadoop

Data Lake Store的备份

我正在为Data Lake Store(DLS)制定备份策略。我的计划是创建两个DLS帐户并在它们之间复制数据。我已经评估了几种实现这一点的方法,但是它们都不符合保留POSIX ACL的要求(使用DLS说法的权限)。 PowerShell cmdlet要求将数据从主DLS下载到VM并重新上载到辅助DLS。 AdlCopy工具仅适用于Windows 10,不保留权限,也不支持跨区域复制数据(并非这是 ..

是否更改dfs.blocksizeaffect现有数据的值

我的Hadoop版本是2.5.2。我正在更改主节点上hdfs-site.xml文件中的dfs.blocksize。我有以下问题: $ b $ 1)这个改变会影响HDFS中的现有数据 2)我是否需要将这个改变传播给他所有的节点Hadoop集群或仅在NameNode上就足够了 解决方案 您应该对所有从站的hdfs-site.xml进行更改。 .. dfs.block大小应该在所有datan ..
发布时间:2018-05-31 20:28:40 分布式计算/Hadoop

纱罐lauch失败异常和mapred-site.xml配置

我的Hadoop集群中有7个节点[8GB RAM和4VCPU到每个节点],1个Namenode + 6 datanodes。 EDIT-1 @ ARNON :我遵循链接,根据我的节点上的硬件配置疯狂计算,并在我的问题中添加了更新mapred-site和yarn-site.xml文件。我的应用程序崩溃时使用了相同的缓存 我的mapreduce应用程序有34个输入拆分,块大小为128MB。 ..
发布时间:2018-05-31 20:28:37 分布式计算/Hadoop

从Hive插入到Hbase时出错

我正在使用CDH 4.7.1群集。地图似乎完成了100%并且没有减少部分。 我将下面的部分添加到了hive-site.xml。实际的错误消息粘贴在这篇文章的最后部分。谢谢。任何帮助表示赞赏。 hive.aux.jars.path file:///opt/cloudera/parcels/CDH/lib/hbase/hbase.jar, ..
发布时间:2018-05-31 20:28:34 分布式计算/Hadoop

猪初学者的例子[意外错误]

我是Linux和Apache Pig的新手。我按照这个教程学习猪: http://salsahpc.indiana.edu/ ScienceCloud / pig_word_count_tutorial.htm 这是一个基本的字数统计范例。数据文件'input.txt'和程序文件'wordcount.pig'位于Wordcount包中,并链接到该网站。 我已经有 Pig 0.11.1 ..
发布时间:2018-05-31 20:28:30 分布式计算/Hadoop

没有FileSystem for scheme:hdfs

我在运行包含Hbase Bolt的Storm拓扑时出现以下错误。 java.io。 IOException:没有FileSystem for scheme:hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2298)〜[hadoop-common-2.0.0-cdh4.7.0.jar:n ..
发布时间:2018-05-31 20:28:25 分布式计算/Hadoop

hadoop网页界面未能显示作业记录

我可以访问hadoop管理站点的大部分功能,如下所示: 但是,当我试图访问每个应用程序的历史记录时,我不再有运气: 任何人都知道我的环境会发生什么?我应该在哪里查看? 顺便说一句,当我尝试在虚拟机上运行“netstat -a”时,我发现端口8088或19888没有记录,这是非常不合理的对我来说,因为8088导致hadoop主页并且运行良好。 解决方案 在此Web界面中,您可以 ..
发布时间:2018-05-31 20:28:20 分布式计算/Hadoop

将数据配置到Hadoop MR / Pig中的作业

我有三种不同类型的作业在HDFS上的数据上运行。 这三项工作必须在当前情况下单独运行。 现在,我们希望通过将一个作业的OUTPUT数据传输到另一个作业而无需在HDFS中写入数据来改进架构和整体性能,从而一起运行三个作业。 欢迎您提出任何建议。 PS:Oozie不适合工作流程。由于可伸缩性问题,也排除了级联框架。 谢谢 解决方案 Hadoop在M / R步骤之后固有写入存储( ..
发布时间:2018-05-31 20:28:14 分布式计算/Hadoop

如何在DataNode中选择块放置策略?

如果我的hadoop集群中的块复制为3,并且每个DataNode都有3个$ {dfs.data.dir}目录。当DataNode被选择为存储块时,该块是存储在所有3个direcoties中还是其中的一个? 如果答案是后者,如何选择$ {dfs .data.dir}目录? 解决方案 当数据块到达datanode时,以循环方式选择正确的目录。您可以通过将dfs.datanode.fsda ..
发布时间:2018-05-31 20:28:12 分布式计算/Hadoop

将HDFS数据移入MongoDB

我试图将HDFS数据移入MongoDB。我知道如何使用sqoop将数据导出到mysql中。我不认为我可以使用MongoDb的sqoop。我需要帮助了解如何做到这一点。 解决方案 基本问题是mongo以BSON格式(二进制JSON)存储其数据,而您的hdfs数据可能具有不同的格式(txt,sequence,avro)。最简单的事情就是使用pig来加载使用这个驱动的结果: https:/ ..
发布时间:2018-05-31 20:28:02 分布式计算/Hadoop

hadoop集群的最佳块大小

我正在研究hadoop中的四节点多集群。我已经进行了一系列块大小的实验,如下所示,并计算运行时间,如下所示。 所有这些都是在20GB输入文件上执行的。 64MB - 32分钟, 128MB - 19分钟, 256MB - 15分钟, 1GB - 12.5分钟。 我应该继续进行2GB的块大小吗?如果在90GB文件上执行类似的操作,也请善意解释最佳块大小。感谢! 只有您考虑下 ..
发布时间:2018-05-31 20:27:56 分布式计算/Hadoop

在配置多个节点后,hdfs dfs ls不工作

我开始关注在线教程,在单个本地虚拟机上配置多个ndoes。这里是主节点上的主机: 127.0.0.1 localhost 192.168.96.132 hadoop 192.168。 96.135 hadoop1 192.168.96.136 hadoop2 ssh:ALL:allow sshd:ALL:allow 这是以前的命令: hdfs df ..
发布时间:2018-05-31 20:27:54 分布式计算/Hadoop