分布式计算/Hadoop
我正在尝试 hbase spark分布式扫描示例。 我的简单代码如下所示: public class DistributedHBaseScanToRddDemo { public static void main(String [] args){ JavaSparkContext jsc = getJavaSparkContext(“hbasetable1”); 配置hb
..
stderr 在执行map-reduce作业时记录以下内容: root @ dbpc42:/ tmp / mesos / slaves / 20141201-225046-698725789-5050-19765-S24 / frameworks / 20141201-225046-698725789-5050-19765-0016 / executors / executor_Task_
..
我有文件的列由char(30)分隔,行由char(31)分隔。我使用这些分隔符主要是因为列可能包含换行符(\\\ ),所以对于我们来说,配置单元的默认行分隔符对我们没有用。 我试过了要更改配置单元中的行分隔符,但会得到以下错误: LINES TERMINATED BY仅支持换行'\\\ '。 任何建议? 编写自定义SerDe可能工作吗? 是否有计划在新版本中增强hiv
..
我使用的是hadoop 1.1.2,hbase 0.94.8和hive 0.14。 我试图在hbase中使用配置单元和加载数据在其中创建一个表格,稍后通过插入覆盖。 目前,我能够创建表: CREATE TABLE hbase_table_emp(id int,name string,role string) STORED BY'org.apache。 hadoop.hive.hb
..
我试图找出哪些给出的答案最适合这个问题: 给定一个具有以下结构的文件目录:行号, 制表符,字符串: Example : 1abialkjfjkaoasdfjksdlkjhqweroij 2kadfjhuwqounahagtnbvaswslmnbfgy 3kjfteiomndscxeqalkzhtopedkfsikj 您希望将每行作为一条记录发送给Mapper。
..
我们正在使用HDP 2.4,并且有许多以各种方式编写的缩减地图作业(Java MR / Hive /等)。日志在应用程序ID下收集在hadoop文件系统中。我想收集应用程序的所有日志,并将其追加到单个文件(一台机器的hdfs或OS文件)中,以便我可以无需麻烦地在单个位置分析我的应用程序日志。还建议我在HDP 2.4中实现的最佳方式(栈版本信息=> HDFS 2.7.1.2.4 / YARN 2.7
..
我是HBase的新手。我在两台机器上运行HBase集群(一台主机上有一台主机,一台机器上有一台主服务器)。 当我使用以下命令启动hbase shell时: bin / hbase shell $ p $ p $ create $ t1 $ f $ $ p $ create $'$' / code> 我收到以下错误: SLF4J:类
..
我正在为Data Lake Store(DLS)制定备份策略。我的计划是创建两个DLS帐户并在它们之间复制数据。我已经评估了几种实现这一点的方法,但是它们都不符合保留POSIX ACL的要求(使用DLS说法的权限)。 PowerShell cmdlet要求将数据从主DLS下载到VM并重新上载到辅助DLS。 AdlCopy工具仅适用于Windows 10,不保留权限,也不支持跨区域复制数据(并非这是
..
我的Hadoop版本是2.5.2。我正在更改主节点上hdfs-site.xml文件中的dfs.blocksize。我有以下问题: $ b $ 1)这个改变会影响HDFS中的现有数据 2)我是否需要将这个改变传播给他所有的节点Hadoop集群或仅在NameNode上就足够了 解决方案 您应该对所有从站的hdfs-site.xml进行更改。 .. dfs.block大小应该在所有datan
..
我的Hadoop集群中有7个节点[8GB RAM和4VCPU到每个节点],1个Namenode + 6 datanodes。 EDIT-1 @ ARNON :我遵循链接,根据我的节点上的硬件配置疯狂计算,并在我的问题中添加了更新mapred-site和yarn-site.xml文件。我的应用程序崩溃时使用了相同的缓存 我的mapreduce应用程序有34个输入拆分,块大小为128MB。
..
我正在使用CDH 4.7.1群集。地图似乎完成了100%并且没有减少部分。 我将下面的部分添加到了hive-site.xml。实际的错误消息粘贴在这篇文章的最后部分。谢谢。任何帮助表示赞赏。 hive.aux.jars.path file:///opt/cloudera/parcels/CDH/lib/hbase/hbase.jar,
..
我是Linux和Apache Pig的新手。我按照这个教程学习猪: http://salsahpc.indiana.edu/ ScienceCloud / pig_word_count_tutorial.htm 这是一个基本的字数统计范例。数据文件'input.txt'和程序文件'wordcount.pig'位于Wordcount包中,并链接到该网站。 我已经有 Pig 0.11.1
..
我在运行包含Hbase Bolt的Storm拓扑时出现以下错误。 java.io。 IOException:没有FileSystem for scheme:hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2298)〜[hadoop-common-2.0.0-cdh4.7.0.jar:n
..
我可以访问hadoop管理站点的大部分功能,如下所示: 但是,当我试图访问每个应用程序的历史记录时,我不再有运气: 任何人都知道我的环境会发生什么?我应该在哪里查看? 顺便说一句,当我尝试在虚拟机上运行“netstat -a”时,我发现端口8088或19888没有记录,这是非常不合理的对我来说,因为8088导致hadoop主页并且运行良好。 解决方案 在此Web界面中,您可以
..
我有三种不同类型的作业在HDFS上的数据上运行。 这三项工作必须在当前情况下单独运行。 现在,我们希望通过将一个作业的OUTPUT数据传输到另一个作业而无需在HDFS中写入数据来改进架构和整体性能,从而一起运行三个作业。 欢迎您提出任何建议。 PS:Oozie不适合工作流程。由于可伸缩性问题,也排除了级联框架。 谢谢 解决方案 Hadoop在M / R步骤之后固有写入存储(
..
如果我的hadoop集群中的块复制为3,并且每个DataNode都有3个$ {dfs.data.dir}目录。当DataNode被选择为存储块时,该块是存储在所有3个direcoties中还是其中的一个? 如果答案是后者,如何选择$ {dfs .data.dir}目录? 解决方案 当数据块到达datanode时,以循环方式选择正确的目录。您可以通过将dfs.datanode.fsda
..
我试图将HDFS数据移入MongoDB。我知道如何使用sqoop将数据导出到mysql中。我不认为我可以使用MongoDb的sqoop。我需要帮助了解如何做到这一点。 解决方案 基本问题是mongo以BSON格式(二进制JSON)存储其数据,而您的hdfs数据可能具有不同的格式(txt,sequence,avro)。最简单的事情就是使用pig来加载使用这个驱动的结果: https:/
..
我试图将文件从本地复制到 hdfs。在/ / user / hduser / hadoop中使用命令 hadoop dfs -copyFromLocal 显示以下错误消息。请帮助找到问题。 DEPRECATED:不推荐使用此脚本执行hdfs命令。 改为使用hdfs命令。 15/02/02 19:22:23 WARN hdfs.DFSClient :DataStreamer
..
我正在研究hadoop中的四节点多集群。我已经进行了一系列块大小的实验,如下所示,并计算运行时间,如下所示。 所有这些都是在20GB输入文件上执行的。 64MB - 32分钟, 128MB - 19分钟, 256MB - 15分钟, 1GB - 12.5分钟。 我应该继续进行2GB的块大小吗?如果在90GB文件上执行类似的操作,也请善意解释最佳块大小。感谢! 只有您考虑下
..
我开始关注在线教程,在单个本地虚拟机上配置多个ndoes。这里是主节点上的主机: 127.0.0.1 localhost 192.168.96.132 hadoop 192.168。 96.135 hadoop1 192.168.96.136 hadoop2 ssh:ALL:allow sshd:ALL:allow 这是以前的命令: hdfs df
..