分布式计算/Hadoop 第9页 - IT屋-程序员软件开发技术分享社区

执行hbase扫描时出现异常

我正在尝试 hbase spark分布式扫描示例。我的简单代码如下所示： public class DistributedHBaseScanToRddDemo { public static void main（String [] args）{ JavaSparkContext jsc = getJavaSparkContext（“hbasetable1”）; 配置hb ..

发布时间：2018-05-31 20:29:14 apache-spark hadoop hbase apache-zookeeper 分布式计算/Hadoop

Mesos 0.21.0上的Hadoop 2.5.0与库0.0.8执行程序错误

stderr 在执行map-reduce作业时记录以下内容： root @ dbpc42：/ tmp / mesos / slaves / 20141201-225046-698725789-5050-19765-S24 / frameworks / 20141201-225046-698725789-5050-19765-0016 / executors / executor_Task_ ..

发布时间：2018-05-31 20:29:07 hadoop mapreduce mesos 分布式计算/Hadoop

LINES TERMINATED BY现在只支持换行符'\\\
'

我有文件的列由char（30）分隔，行由char（31）分隔。我使用这些分隔符主要是因为列可能包含换行符（\\\ ），所以对于我们来说，配置单元的默认行分隔符对我们没有用。我试过了要更改配置单元中的行分隔符，但会得到以下错误： LINES TERMINATED BY仅支持换行'\\\ '。任何建议？编写自定义SerDe可能工作吗？是否有计划在新版本中增强hiv ..

发布时间：2018-05-31 20:29:04 hadoop hive 分布式计算/Hadoop

执行hive中的select查询时出错

我使用的是hadoop 1.1.2，hbase 0.94.8和hive 0.14。我试图在hbase中使用配置单元和加载数据在其中创建一个表格，稍后通过插入覆盖。目前，我能够创建表： CREATE TABLE hbase_table_emp（id int，name string，role string） STORED BY'org.apache。 hadoop.hive.hb ..

发布时间：2018-05-31 20:29:01 hadoop hive hbase 分布式计算/Hadoop

InputFormat决策

我试图找出哪些给出的答案最适合这个问题：给定一个具有以下结构的文件目录：行号，制表符，字符串： Example ： 1abialkjfjkaoasdfjksdlkjhqweroij 2kadfjhuwqounahagtnbvaswslmnbfgy 3kjfteiomndscxeqalkzhtopedkfsikj 您希望将每行作为一条记录发送给Mapper。 ..

发布时间：2018-05-31 20:28:56 hadoop mapreduce 分布式计算/Hadoop

HDP 2.4，如何在一个文件中使用flume收集hadoop mapreduce日志，以及最佳做法是什么

我们正在使用HDP 2.4，并且有许多以各种方式编写的缩减地图作业（Java MR / Hive /等）。日志在应用程序ID下收集在hadoop文件系统中。我想收集应用程序的所有日志，并将其追加到单个文件（一台机器的hdfs或OS文件）中，以便我可以无需麻烦地在单个位置分析我的应用程序日志。还建议我在HDP 2.4中实现的最佳方式（栈版本信息=> HDFS 2.7.1.2.4 / YARN 2.7 ..

发布时间：2018-05-31 20:28:54 hadoop logging mapreduce bigdata 分布式计算/Hadoop

HBase集群：org.apache.hadoop.security.JniBasedUnixGroupsMapping.anchorNative（）V

我是HBase的新手。我在两台机器上运行HBase集群（一台主机上有一台主机，一台机器上有一台主服务器）。当我使用以下命令启动hbase shell时： bin / hbase shell $ p $ p $ create $ t1 $ f $ $ p $ create $'$' / code> 我收到以下错误： SLF4J：类 ..

发布时间：2018-05-31 20:28:51 hadoop hbase cluster-computing 分布式计算/Hadoop

Data Lake Store的备份

我正在为Data Lake Store（DLS）制定备份策略。我的计划是创建两个DLS帐户并在它们之间复制数据。我已经评估了几种实现这一点的方法，但是它们都不符合保留POSIX ACL的要求（使用DLS说法的权限）。 PowerShell cmdlet要求将数据从主DLS下载到VM并重新上载到辅助DLS。 AdlCopy工具仅适用于Windows 10，不保留权限，也不支持跨区域复制数据（并非这是 ..

发布时间：2018-05-31 20:28:49 azure hadoop hdinsight azure-data-lake data-lake 分布式计算/Hadoop

是否更改dfs.blocksizeaffect现有数据的值

我的Hadoop版本是2.5.2。我正在更改主节点上hdfs-site.xml文件中的dfs.blocksize。我有以下问题： $ b $ 1）这个改变会影响HDFS中的现有数据 2）我是否需要将这个改变传播给他所有的节点Hadoop集群或仅在NameNode上就足够了解决方案您应该对所有从站的hdfs-site.xml进行更改。 .. dfs.block大小应该在所有datan ..

发布时间：2018-05-31 20:28:40 hadoop hdfs dfs 分布式计算/Hadoop

纱罐lauch失败异常和mapred-site.xml配置

我的Hadoop集群中有7个节点[8GB RAM和4VCPU到每个节点]，1个Namenode + 6 datanodes。 EDIT-1 @ ARNON ：我遵循链接，根据我的节点上的硬件配置疯狂计算，并在我的问题中添加了更新mapred-site和yarn-site.xml文件。我的应用程序崩溃时使用了相同的缓存我的mapreduce应用程序有34个输入拆分，块大小为128MB。 ..

发布时间：2018-05-31 20:28:37 hadoop mapreduce yarn 分布式计算/Hadoop

从Hive插入到Hbase时出错

我正在使用CDH 4.7.1群集。地图似乎完成了100％并且没有减少部分。我将下面的部分添加到了hive-site.xml。实际的错误消息粘贴在这篇文章的最后部分。谢谢。任何帮助表示赞赏。 hive.aux.jars.path file：///opt/cloudera/parcels/CDH/lib/hbase/hbase.jar， ..

发布时间：2018-05-31 20:28:34 hadoop hive hbase cloudera-cdh 分布式计算/Hadoop

猪初学者的例子[意外错误]

我是Linux和Apache Pig的新手。我按照这个教程学习猪： http://salsahpc.indiana.edu/ ScienceCloud / pig_word_count_tutorial.htm 这是一个基本的字数统计范例。数据文件'input.txt'和程序文件'wordcount.pig'位于Wordcount包中，并链接到该网站。我已经有 Pig 0.11.1 ..

发布时间：2018-05-31 20:28:30 hadoop apache-pig 分布式计算/Hadoop

没有FileSystem for scheme：hdfs

我在运行包含Hbase Bolt的Storm拓扑时出现以下错误。 java.io。 IOException：没有FileSystem for scheme：hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass（FileSystem.java:2298）〜[hadoop-common-2.0.0-cdh4.7.0.jar：n ..

发布时间：2018-05-31 20:28:25 hadoop hbase hdfs 分布式计算/Hadoop

hadoop网页界面未能显示作业记录

我可以访问hadoop管理站点的大部分功能，如下所示：但是，当我试图访问每个应用程序的历史记录时，我不再有运气：任何人都知道我的环境会发生什么？我应该在哪里查看？顺便说一句，当我尝试在虚拟机上运行“netstat -a”时，我发现端口8088或19888没有记录，这是非常不合理的对我来说，因为8088导致hadoop主页并且运行良好。解决方案在此Web界面中，您可以 ..

发布时间：2018-05-31 20:28:20 hadoop web-interface 分布式计算/Hadoop

将数据配置到Hadoop MR / Pig中的作业

我有三种不同类型的作业在HDFS上的数据上运行。这三项工作必须在当前情况下单独运行。现在，我们希望通过将一个作业的OUTPUT数据传输到另一个作业而无需在HDFS中写入数据来改进架构和整体性能，从而一起运行三个作业。欢迎您提出任何建议。 PS：Oozie不适合工作流程。由于可伸缩性问题，也排除了级联框架。谢谢解决方案 Hadoop在M / R步骤之后固有写入存储（ ..

发布时间：2018-05-31 20:28:14 hadoop mapreduce oozie cascading 分布式计算/Hadoop

如何在DataNode中选择块放置策略？

如果我的hadoop集群中的块复制为3，并且每个DataNode都有3个$ {dfs.data.dir}目录。当DataNode被选择为存储块时，该块是存储在所有3个direcoties中还是其中的一个？如果答案是后者，如何选择$ {dfs .data.dir}目录？解决方案当数据块到达datanode时，以循环方式选择正确的目录。您可以通过将dfs.datanode.fsda ..

发布时间：2018-05-31 20:28:12 hadoop block hdfs 分布式计算/Hadoop

将HDFS数据移入MongoDB

我试图将HDFS数据移入MongoDB。我知道如何使用sqoop将数据导出到mysql中。我不认为我可以使用MongoDb的sqoop。我需要帮助了解如何做到这一点。解决方案基本问题是mongo以BSON格式（二进制JSON）存储其数据，而您的hdfs数据可能具有不同的格式（txt，sequence，avro）。最简单的事情就是使用pig来加载使用这个驱动的结果： https:/ ..

发布时间：2018-05-31 20:28:02 mongodb hadoop sqoop 分布式计算/Hadoop

将文件从LocalFile复制到hdfs时出现错误信息

我试图将文件从本地复制到 hdfs。在/ / user / hduser / hadoop中使用命令 hadoop dfs -copyFromLocal 显示以下错误消息。请帮助找到问题。 DEPRECATED：不推荐使用此脚本执行hdfs命令。改为使用hdfs命令。 15/02/02 19:22:23 WARN hdfs.DFSClient ：DataStreamer ..

发布时间：2018-05-31 20:27:59 hadoop mapreduce hdfs cloudera hadoop2 分布式计算/Hadoop

hadoop集群的最佳块大小

我正在研究hadoop中的四节点多集群。我已经进行了一系列块大小的实验，如下所示，并计算运行时间，如下所示。所有这些都是在20GB输入文件上执行的。 64MB - 32分钟， 128MB - 19分钟， 256MB - 15分钟， 1GB - 12.5分钟。我应该继续进行2GB的块大小吗？如果在90GB文件上执行类似的操作，也请善意解释最佳块大小。感谢！只有您考虑下 ..

发布时间：2018-05-31 20:27:56 hadoop mapreduce 分布式计算/Hadoop

在配置多个节点后，hdfs dfs ls不工作

我开始关注在线教程，在单个本地虚拟机上配置多个ndoes。这里是主节点上的主机： 127.0.0.1 localhost 192.168.96.132 hadoop 192.168。 96.135 hadoop1 192.168.96.136 hadoop2 ssh：ALL：allow sshd：ALL：allow 这是以前的命令： hdfs df ..

发布时间：2018-05-31 20:27:54 hadoop 分布式计算/Hadoop