hadoop2相关内容
我正在尝试学习 MapReduce,但我现在有点迷茫. http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Usage 特别是这组指令: 编译 WordCount.java 并创建一个 jar:$ bin/had
..
我使用的是 Hadoop-2.4.0,我的系统配置是 24 核,96 GB RAM. 我正在使用以下配置 mapreduce.map.cpu.vcores=1yarn.nodemanager.resource.cpu-vcores=10yarn.scheduler.minimum-allocation-vcores=1yarn.scheduler.maximum-allocation-vc
..
我有一个关于 hadoop 数据写入的小问题 来自 Apache 文档 对于常见的情况,当复制因子为 3 时,HDFS 的放置策略是将一个副本放在本地机架的一个节点上,另一个放在不同(远程)机架的节点上,最后一个放在不同的节点上在同一个远程机架中.此策略减少了机架间写入流量,这通常会提高写入性能.机架故障的几率远小于节点故障; 在下图中,当写确认被视为成功时? 1) 向第一
..
我已经成功安装了 Java openjdk version "10.0.2" 和 Hadoop 2.9.0.所有进程都运行良好 hadoopusr@amalendu:~$ jps19888 名称节点20388 数据节点20898 节点管理器20343 SecondaryNameNode20539 资源管理器21118 日元 但是当我尝试执行任何命令时,例如 hdfs dfs -ls/ 收到此警
..
我正在尝试在我的本地机器上重现 Amazon EMR 集群.为此,我已经安装了 截至目前最新稳定版本的 Hadoop- 2.6.0.现在我想访问一个 S3 存储桶,就像我在 EMR 集群中所做的那样. 我已在 core-site.xml 中添加了 aws 凭据: fs.s3.awsAccessKeyIdsome id
..
根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-sumption-gotchas/,确定每个节点并发运行任务数的公式为: min (yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemana
..
我已经建立了一个多节点的 Hadoop 集群.NameNode和Secondary namenode运行在同一台机器上,集群只有一个Datanode.所有节点都配置在 Amazon EC2 机器上. 以下是master节点上的配置文件: 大师54.68.218.192(主节点公网IP)奴隶54.68.169.62(从节点公网IP) core-site.xml fs.
..
我目前正在运行 CentOs 的服务器上配置 hadoop.当我运行 start-dfs.sh 或 stop-dfs.sh 时,出现以下错误: WARN util.NativeCodeLoader: 无法加载 native-hadoop 库您的平台...在适用的情况下使用内置 Java 类 我正在运行 Hadoop 2.2.0. 在网上进行搜索会找到这个链接:http://bal
..
我目前正在运行 CentOs 的服务器上配置 hadoop.当我运行 start-dfs.sh 或 stop-dfs.sh 时,出现以下错误: WARN util.NativeCodeLoader: 无法加载 native-hadoop 库您的平台...在适用的情况下使用内置 Java 类 我正在运行 Hadoop 2.2.0. 在网上进行搜索会找到这个链接:http://bal
..
我有以下 kafka 制作人 Api 程序,我是 kafka 本身的新手.下面的代码从 API 之一获取数据并将消息发送到 kafka 主题. package kafka_Demo;导入 java.util.Properties;导入 java.io.BufferedReader;导入 java.io.InputStream;导入 java.io.InputStreamReader;导入 org
..
基本上我需要根据 DataPartition 列创建输出文件.数据框中的最后一列 所以第一行和最后一行将保存在Fundamental.Fundamental.Fundamental.Japan.1.2018-09-24-0937.Full.txt中间一行将保存在Fundamental.Fundamental.Fundamental.ThirdParty.1.2018-09-24-0937.F
..
嗨,我有我的 spark 数据框的输出,它创建了文件夹结构并创建了部分文件.现在我必须合并文件夹内的所有部分文件并将该文件重命名为文件夹路径名. 这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear").format("csv").option("nullValue", "").option("header", "tr
..
我想使用 Kryo 序列化运行 Spark.因此我设置了 spark.serializer=org.apache.spark.serializer.KryoSerializer 和 spark.kryo.registrationRequired=true 然后当我运行我的代码时出现错误: 类未注册:org.apache.spark.sql.catalyst.InternalRow[]
..
在向 YARN 提交 Spark 应用程序时出现以下关于容器的错误.HADOOP(2.7.3)/SPARK(2.1)环境在单节点集群中运行伪分布式模式.该应用程序在本地模型中运行时完美运行,但尝试使用 YARN 作为 RM 在集群模式下检查其正确性并遇到一些障碍.刚接触这个世界,因此寻求帮助. --- 应用程序日志 2017-04-11 07:13:28 INFO Client:58 -
..
我有一个火花作业,我在两个数据帧之间进行外连接.第一个数据框的大小为 260 GB,文件格式为文本文件,分为 2200 个文件,第二个数据框的大小为 2GB.然后将大约 260 GB 的数据帧输出写入 S3 需要很长时间,之后我取消了 2 个多小时,因为我在 EMR 上进行了大量更改. 这是我的集群信息. emr-5.9.0大师:m3.2xlarge核心:r4.16xlarge 10 台机
..
我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上,然后再转移到 cassandra.因此,我试图将数据保存在 hdfs 上,如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt
..
我正在向连接到安全 hbase 集群的 YARN(在 spark 2.1.1 + kafka 0.10.2.1 上)提交作业.当我在“本地"模式(spark.master=local[*])下运行时,这项工作执行得很好. 但是,一旦我以 YARN(并将部署模式作为客户端)提交作业,我就会看到以下错误消息 - Caused by: javax.security.auth.login.Logi
..
我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上,然后再转移到 cassandra.因此,我试图将数据保存在 hdfs 上,如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt
..
有没有可能在浮点数或双数的小数点后切割某个区域?例如:结果是 2.67894 => 我想要 2.6 作为结果(而不是四舍五入时的 2.7). 解决方案 为此编写一个 UDF(用户定义函数). 一个非常简单的python UDF (numformat.py): @outputSchema('value:double')定义格式(数据):返回回合(数据,1) (当然,您可以对 UDF
..
我使用的是 cloudera Hadoop 2.6,pig 0.15 版本. 我正在尝试从 xml 文件中提取数据.您可以在下面看到部分 xml 文件. 输出附件 我可以使用 XPath() 函数转储节点值但不能转储属性值.您可以看到下面的代码返回空元组而不是 pro
..