hadoop2 第5页 - IT屋-程序员软件开发技术分享社区

线程“主"中的Hadoop，MapReduce自定义Java计数器异常； java.lang.IllegalStateException:状态为DEFINE而不是RUNNING的作业

错误是: Exception in thread "main" java.lang.IllegalStateException: Job in state DEFINE instead of RUNNING at org.apache.hadoop.mapreduce.Job.ensureState(Job.java:294) at org.apache.hadoop.map ..

发布时间：2020-11-22 02:07:12 hadoop hadoop2 其他开发

在hadoop中有一个相当于find命令的命令吗?

我知道从终端可以执行find命令来查找文件，例如: find . -type d -name "*something*" -maxdepth 4 但是，当我处于hadoop文件系统中时，我还没有找到实现此目的的方法. hadoop fs -find .... 引发错误. 人们如何遍历hadoop中的文件?我正在使用hadoop 2.6.0-cdh5.4.1. 解决 ..

发布时间：2020-11-22 02:03:06 hadoop terminal hdfs hadoop2 其他开发

如何更新HDFS中的文件

我知道HDFS只能写入一次并且可以读取多次. 假设我要更新HDFS中的文件，有什么办法吗? 先谢谢您！解决方案选项1: 如果您只想添加到现有文件中 echo "" | hdfs dfs -appendToFile - /user/hduser/myfile.txt或 hdfs dfs -appendToFile - /user/ ..

发布时间：2020-11-22 01:49:30 hadoop hdfs hadoop2 其他开发

如何修复Hadoop警告:在Ubuntu上发生了非法的反射访问操作错误

我已经成功安装了Java openjdk version "10.0.2"和Hadoop 2.9.0.所有进程都运行良好 hadoopusr@amalendu:~$ jps 19888 NameNode 20388 DataNode 20898 NodeManager 20343 SecondaryNameNode 20539 ResourceManager 21118 Jps 但是，每 ..

发布时间：2020-11-22 01:48:11 java ubuntu hadoop hadoop2 Java开发

Hadoop多节点集群太慢。如何提高数据处理速度？

我有一个6节点群集-5 DN和1 NN。全部都有32 GB RAM。所有从站均具有8.7 TB硬盘。 DN具有1.1 TB硬盘。这是我的 core-site.xml 的链接， hdfs-site.xml ， yarn-site.xml 。运行MR作业后，我检查了我的RAM用法，如下所述： Namenode 免费-g 已使用的总计免费共享buff /缓存可用内存：31 7 1 ..

发布时间：2020-10-03 02:39:48 hadoop cluster-computing yarn hadoop2 其他开发

色相500服务器错误

我正在创建一个MapReduce简单作业。提交后，其出现以下错误建议解决此问题解决方案我知道我为时已晚。但是我注意到，如果您清除Cookie，通常可以解决此问题。 ..

发布时间：2020-10-03 00:26:48 hadoop mapreduce cloudera hadoop2 hue 其他开发

如何使用saveAsHadoopFile或MultiTextOutputFormat保存数据帧

基本上我需要基于DataPartition列创建输出文件.数据框中的最后一列因此第一行和最后一行将保存在Fundamental.Fundamental.Fundamental.Japan.1.2018-09-24-0937.Full.txt中并且中间行将保存在Fundamental.Fundamental.Fundamental.ThirdParty.1.2018-09-24-0937. ..

发布时间：2020-09-04 21:30:21 scala apache-spark apache-spark-sql hadoop2 其他开发

Spark中的虚拟内存如何计算?

我在Hadoop上使用Spark，想知道Spark如何将虚拟内存分配给执行程序. 根据YARN vmem-pmem，它为容器提供了2.1倍的虚拟内存. 因此-如果XMX为1GB，则-> 1 GB * 2.1 = 2.1 GB分配给了容器. 它在Spark上如何工作?下面的陈述是正确的吗? 如果我给Executor内存= 1 GB，那么总虚拟内存= 1 GB * 2. ..

发布时间：2020-09-04 08:56:22 apache-spark yarn hadoop2 其他开发

如何在Spark中向Kryo注册InternalRow

我想运行带有Kryo序列化的Spark.因此，我设置了spark.serializer=org.apache.spark.serializer.KryoSerializer和spark.kryo.registrationRequired=true 然后我运行代码时，出现错误: 未注册类:org.apache.spark.sql.catalyst.InternalRow [] 根据 ..

发布时间：2020-09-04 08:35:15 hadoop apache-spark apache-spark-sql hadoop2 kryo 其他开发

使用“请求发送地图输出位置以随机播放"的Spark Indefinite Waiting

我的工作经常因以下消息而挂起: 14/09/01 00:32:18 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@*:37619 如果有人能在发出此消息时解释Spark的功能，那将很棒.此消息是什么意思?用户可能做错了什么导致这种情况?应该 ..

发布时间：2020-09-04 06:46:36 apache-spark yarn hadoop2 其他开发

将Spark设置为Hive的默认执行引擎

Hadoop 2.7.3，Spark 2.1.0和Hive 2.1.1 我正在尝试将spark设置为蜂巢的默认执行引擎.我将$ SPARK_HOME/jars中的所有jars上传到hdfs文件夹，并将scala库，spark-core和spark-network-common的jars复制到HIVE_HOME/lib.然后，我配置了具有以下属性的hive-site.xml: ..

发布时间：2020-09-04 06:28:10 hadoop apache-spark hive hadoop2 其他开发

我在AWS上有一个Hadoop/Yarn集群设置，我有一个主服务器和3个从属服务器.我已验证我在端口50070和8088上运行了3个活动节点.我在客户端部署模式下测试了Spark作业，一切正常. 当我尝试使用./spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster ip.py火花提交作业时 ..

发布时间：2020-09-04 06:17:59 hadoop apache-spark pyspark yarn hadoop2 其他开发

在火花中，广播如何工作?

这是一个非常简单的问题:在spark中，broadcast可用于有效地将变量发送给执行者.这是怎么工作的? 更准确地说: 何时发送值:何时我调用broadcast或何时使用这些值? 将数据发送到哪里:发给所有执行者，或只发给需要执行者的人? 数据存储在哪里?在内存中还是在磁盘上? 访问简单变量和广播变量的方式是否有所不同?当我调用.value方法时，幕后将发生什么? 解决方 ..

发布时间：2020-09-04 05:38:16 apache-spark hadoop2 bigdata 其他开发

org.apache.spark.rpc.RpcTimeoutException:期货在[120秒]后超时.此超时由spark.rpc.lookupTimeout控制

在将火花应用程序提交给YARN时，获得关于容器的以下错误. HADOOP(2.7.3)/SPARK(2.1)环境正在单节点群集中运行伪分布式模式.当使该应用程序在本地模型中运行时，该应用程序完美运行，但是尝试使用YARN作为RM在集群模式下检查其正确性，并遇到了一些障碍.这是世界上的新事物，因此需要帮助. ---应用程序日志 2017-04-11 07:13:28 INFO Clie ..

发布时间：2020-09-04 03:09:17 apache-spark apache-spark-sql yarn hadoop2 其他开发

如何使用`ssc.fileStream()`读取实木复合地板文件?传递给`ssc.fileStream()`的类型是什么?

我对Spark的fileStream()方法的理解是，它采用三种类型作为参数:Key，Value和Format.对于文本文件，适当的类型为:LongWritable，Text和TextInputFormat. 首先，我想了解这些类型的性质.凭直觉，我猜想在这种情况下，Key是文件的行号，而Value是该行上的文本.因此，在以下文本文件示例中: Hello Test Another Te ..

发布时间：2020-09-04 01:59:33 scala hadoop apache-spark spark-streaming hadoop2 其他开发

写入hdfs路径时出现错误java.io.IOException:无法重命名

我正在使用spark-sql-2.4.1v，它正在使用hadoop-2.6.5.jar版本.我需要先将数据保存在hdfs上，然后再移至cassandra. 因此，我试图将数据保存在hdfs上，如下所示: String hdfsPath = "/user/order_items/"; cleanedDs.createTempViewOrTable("source_tab"); givenIt ..

发布时间：2020-09-03 22:56:45 apache-spark hadoop apache-spark-sql hdfs hadoop2 其他开发

带有Spark 1.6.1 Hadoop 2.7.2的Google Dataproc中具有空记录的Kinesis流

我正在尝试从Google Dataproc连接到Amazon Kinesis Stream，但只获得空RDD. Command: spark-submit --verbose --packages org.apache.spark:spark-streaming-kinesis-asl_2.10:1.6.2 demo_kinesis_streaming.py --awsAccessKeyI ..

发布时间：2020-08-23 03:06:42 apache-spark pyspark hadoop2 amazon-kinesis google-cloud-dataproc 其他开发

Spark中止火花作业时打开的文件太多

在我的应用程序中，我正在读取40 GB的文本文件，该文件总共分布在188个文件中. 我分割了这些文件，并使用rdd对在火花中每行创建了xml文件. 对于40 GB的输入，它将创建数百万个小型xml文件，这是我的要求. 一切正常，但是当spark将文件保存在S3中时，它将引发错误，并且作业失败. 这是我得到的例外由以下原因引起:java.nio.file.FileSystemExcep ..

发布时间：2020-08-23 02:37:56 apache-spark amazon-s3 apache-spark-sql hadoop2 amazon-emr 其他开发

如何调整EMR上的Spark作业以在S3上快速写入大量数据

我有一个火花工作，我正在两个数据帧之间进行外部联接. 第一个数据帧的大小为260 GB，文件格式为文本文件，分为2200个文件，第二个数据帧的大小为2GB. 然后将大约260 GB的数据帧输出写入S3需要很长时间，因为我已经在EMR上进行了很大的更改，所以我取消了2个小时之后. 这是我的集群信息. emr-5.9.0 Master: m3.2xlarge Core: r ..

发布时间：2020-08-23 02:10:32 apache-spark-sql spark-dataframe hadoop2 amazon-emr 其他开发

在Apache Spark Scala org.apache.spark.SparkException中解析数据:尝试使用textinputformat.record.delimiter时，任务无法序列化错误

输入文件: ___DATE___ 2018-11-16T06:3937 Linux hortonworks 3.10.0-514.26.2.el7.x86_64 #1 SMP Fri Jun 30 05:26:04 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux 06:39:37 up 100 days, 1:04, 2 users, load ave ..

发布时间：2020-07-25 18:45:12 scala apache-spark rdd hadoop2 spark-shell 其他开发

hadoop2相关内容