hadoop2相关内容

在hadoop中有一个相当于find命令的命令吗?

我知道从终端可以执行find命令来查找文件,例如: find . -type d -name "*something*" -maxdepth 4 但是,当我处于hadoop文件系统中时,我还没有找到实现此目的的方法. hadoop fs -find .... 引发错误. 人们如何遍历hadoop中的文件?我正在使用hadoop 2.6.0-cdh5.4.1. 解决 ..
发布时间:2020-11-22 02:03:06 其他开发

如何更新HDFS中的文件

我知道HDFS只能写入一次并且可以读取多次. 假设我要更新HDFS中的文件,有什么办法吗? 先谢谢您! 解决方案 选项1: 如果您只想添加到现有文件中 echo "" | hdfs dfs -appendToFile - /user/hduser/myfile.txt或 hdfs dfs -appendToFile - /user/ ..
发布时间:2020-11-22 01:49:30 其他开发

Hadoop多节点集群太慢。如何提高数据处理速度?

我有一个6节点群集-5 DN和1 NN。全部都有32 GB RAM。所有从站均具有8.7 TB硬盘。 DN具有1.1 TB硬盘。这是我的 core-site.xml 的链接, hdfs-site.xml , yarn-site.xml 。 运行MR作业后,我检查了我的RAM用法,如下所述: Namenode 免费-g 已使用的总计免费共享buff /缓存可用 内存:31 7 1 ..
发布时间:2020-10-03 02:39:48 其他开发

Spark中的虚拟内存如何计算?

我在Hadoop上使用Spark,想知道Spark如何将虚拟内存分配给执行程序. 根据YARN vmem-pmem,它为容器提供了2.1倍的虚拟内存. 因此-如果XMX为1GB,则-> 1 GB * 2.1 = 2.1 GB分配给了容器. 它在Spark上如何工作?下面的陈述是正确的吗? 如果我给Executor内存= 1 GB,那么 总虚拟内存= 1 GB * 2. ..
发布时间:2020-09-04 08:56:22 其他开发

将Spark设置为Hive的默认执行引擎

Hadoop 2.7.3,Spark 2.1.0和Hive 2.1.1 我正在尝试将spark设置为蜂巢的默认执行引擎.我将$ SPARK_HOME/jars中的所有jars上传到hdfs文件夹,并将scala库,spark-core和spark-network-common的jars复制到HIVE_HOME/lib.然后,我配置了具有以下属性的hive-site.xml: ..
发布时间:2020-09-04 06:28:10 其他开发

Spark/Yarn:HDFS上不存在文件

我在AWS上有一个Hadoop/Yarn集群设置,我有一个主服务器和3个从属服务器.我已验证我在端口50070和8088上运行了3个活动节点.我在客户端部署模式下测试了Spark作业,一切正常. 当我尝试使用./spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster ip.py火花提交作业时 ..
发布时间:2020-09-04 06:17:59 其他开发

在火花中,广播如何工作?

这是一个非常简单的问题:在spark中,broadcast可用于有效地将变量发送给执行者.这是怎么工作的? 更准确地说: 何时发送值:何时我调用broadcast或何时使用这些值? 将数据发送到哪里:发给所有执行者,或只发给需要执行者的人? 数据存储在哪里?在内存中还是在磁盘上? 访问简单变量和广播变量的方式是否有所不同?当我调用.value方法时,幕后将发生什么? 解决方 ..
发布时间:2020-09-04 05:38:16 其他开发

org.apache.spark.rpc.RpcTimeoutException:期货在[120秒]后超时.此超时由spark.rpc.lookupTimeout控制

在将火花应用程序提交给YARN时,获得关于容器的以下错误. HADOOP(2.7.3)/SPARK(2.1)环境正在单节点群集中运行伪分布式模式.当使该应用程序在本地模型中运行时,该应用程序完美运行,但是尝试使用YARN作为RM在集群模式下检查其正确性,并遇到了一些障碍.这是世界上的新事物,因此需要帮助. ---应用程序日志 2017-04-11 07:13:28 INFO Clie ..
发布时间:2020-09-04 03:09:17 其他开发

如何使用`ssc.fileStream()`读取实木复合地板文件?传递给`ssc.fileStream()`的类型是什么?

我对Spark的fileStream()方法的理解是,它采用三种类型作为参数:Key,Value和Format.对于文本文件,适当的类型为:LongWritable,Text和TextInputFormat. 首先,我想了解这些类型的性质.凭直觉,我猜想在这种情况下,Key是文件的行号,而Value是该行上的文本.因此,在以下文本文件示例中: Hello Test Another Te ..
发布时间:2020-09-04 01:59:33 其他开发

Spark中止火花作业时打开的文件太多

在我的应用程序中,我正在读取40 GB的文本文件,该文件总共分布在188个文件中. 我分割了这些文件,并使用rdd对在火花中每行创建了xml文件. 对于40 GB的输入,它将创建数百万个小型xml文件,这是我的要求. 一切正常,但是当spark将文件保存在S3中时,它将引发错误,并且作业失败. 这是我得到的例外 由以下原因引起:java.nio.file.FileSystemExcep ..

如何调整EMR上的Spark作业以在S3上快速写入大量数据

我有一个火花工作,我正在两个数据帧之间进行外部联接. 第一个数据帧的大小为260 GB,文件格式为文本文件,分为2200个文件,第二个数据帧的大小为2GB. 然后将大约260 GB的数据帧输出写入S3需要很长时间,因为我已经在EMR上进行了很大的更改,所以我取消了2个小时之后. 这是我的集群信息. emr-5.9.0 Master: m3.2xlarge Core: r ..
发布时间:2020-08-23 02:10:32 其他开发