pyspark相关内容

Spark在内存中执行TB文件

让我们假设我有一个Tb数据文件。 十个节点集群中的每个节点内存为3GB。 我想使用spark来处理文件。 但是,One TeraByte如何适应内存? 它会抛出内存异常吗? 它是如何工作的? 解决方案 正如Thilo提到的,Spark不需要加载内存中的所有内容就能够处理它。这是因为Spark会将数据划分为更小的块并分别进行操作。分区的数量,这个大小取决于几件事: ..
发布时间:2018-05-31 19:26:11 分布式计算/Hadoop

如何在pyspark中更改hdfs块的大小?

我使用pySpark编写实木复合地板文件。我想改变该文件的hdfs块大小。我设置了块大小,它不起作用: sc._jsc.hadoopConfiguration()。set(“dfs .block.size“,”128m“) 这是否必须在启动pySpark作业之前设置?如果是这样,如何做到这一点。 解决方案 尝试通过 sc._jsc.hadoopConfigurati ..

如何在Spark中分配和使用列标题?

f = sc.textFile(“s3:// test / abc。 csv“) 我的文件包含50多个字段,我希望为每个字段分配列标题以供引用后来在我的脚本。 我如何在PySpark中做到这一点?是DataFrame的方式去这里? PS - 新手到Spark。 解决方案 以下是如何使用DataFrame添加列名称: 假设你的csv有分隔 ..
发布时间:2018-05-31 19:16:02 Python

从Spark RDD中删除空分区

我从HDFS获取数据并将其存储在Spark RDD中。 Spark根据HDFS块的数量创建分区数量。这导致大量的空分区在管道中也被处理。为了消除这种开销,我想过滤掉RDD中的所有空分区。我知道聚结和重新分区,但不能保证所有空分区都将被删除。 有没有其他方法可以解决这个问题? 解决方案 没有简单的方法简单地从RDD中删除空分区。 coalesce 不保证将删除空分区。如果您的RDD ..
发布时间:2018-05-31 19:14:26 分布式计算/Hadoop

pyspark动态列计算

下面是我的火花数据框 abc 1 3 4 2 0 0 4 1 0 2 2 0 我的输出应该如下 abc 1 3 4 2 0 2 4 1 -1 2 2 3 公式为 prev(c)-b + a 即 4-2 + 0 = 2 和 2-4 + 1 = -1 任何人都可以帮我渡过这个障碍吗? 来自pys ..
发布时间:2018-05-31 19:02:08 Python

Dataframe.toPandas始终在驱动程序节点上还是在工作节点上?

假设您正在通过SparkContext和Hive加载大型数据集。所以这个数据集然后分布在你的Spark集群中。例如,对数千个变量进行观察(值+时间戳)。 现在您将使用一些map / reduce方法或聚合来组织/分析数据。例如按变量名分组。 分组后,您可以将每个变量的所有观察值(值)作为时间序列数据框。如果您现在使用DataFrame.toPandas def myFuncti ..
发布时间:2018-05-31 19:01:51 Python

PySpark安装错误

我遵循各种博客文章的指示,包括 a>,此, 和这个在我的笔记本电脑上安装pyspark。但是,当我尝试从终端或jupyter笔记本使用pyspark时,我总是收到以下错误消息。 我已经安装了所有必要的软件,如问题底部所示。 / p> 我已将以下内容添加到我的 .bashrc 函数sjupyter_init() { #将anaconda3设置为python export PA ..
发布时间:2018-05-31 19:01:01 Python

PySpark:使用newAPIHadoopFile从多行记录文本文件读取,映射和缩小

我试图解决一个类似于这个问题帖子。我的原始数据是一个包含多个传感器值(观测值)的文本文件。每个观察结果都有一个时间戳,但传感器名称只给出一次,而不是每行。但是在一个文件中有几个传感器。 时间MHist :: 852-YF-007 2016-05-10 00:00:00 0 2016-05-09 23:59:00 0 2016-05-09 23:58:00 0 2016-05- ..
发布时间:2018-05-31 18:59:35 Python

无法让pyspark作业在hadoop群集的所有节点上运行

摘要:我无法让我的python-spark作业在我的hadoop群集的所有节点上运行。 我已经为hadoop'spark-1.5.2-bin-hadoop2.6'安装了spark。当启动一个java spark工作时,负载在所有节点上分配 ,当启动一个python spark工作时,只有一个节点负载该工作。 安装: hdfs和纱线配​​置为4个节点:nk01(namenode),n ..
发布时间:2018-05-31 18:58:36 分布式计算/Hadoop

Pyspark:获取HDFS路径上的文件/目录列表

如标题所示。我知道textFile,但顾名思义,它只适用于文本文件。 我需要访问HDFS(或本地路径)路径中的文件/目录。我使用pyspark 感谢您的帮助 我相信将Spark视为一种数据处理工具是有帮助的,其中一个域开始加载数据。它可以读取多种格式,并且支持Hadoop glob表达式,这对于从HDFS中的多个路径读取非常有用,但它没有我知道的用于遍历目录或文件的内置工具,也没有特定于与 ..
发布时间:2018-05-31 18:46:41 分布式计算/Hadoop

使用pyspark,在hadoop文件系统上读写二维图像

我希望能够在hdfs文件系统上读取/写入图像,并利用hdfs位置。 我有一个图像集合,其中每个图像都由 2D基本附加信息数组uint16 存储为xml文件。 我想通过hdfs文件系统创建存档,并使用spark来分析存档。现在我正努力将数据存储在hdfs文件系统上,以便充分利用spark + hdfs结构。 据我所知,最好的方法是创建一个sequenceFile包装器。我有 ..
发布时间:2018-05-31 18:43:28 分布式计算/Hadoop

Spark RDD - 是否总是在RAM中进行分区?

我们都知道Spark在内存中进行计算。 如果我创建10 RDD 在HDFS的pySpark shell中,是否所有这些10 RDD 的数据都驻留在Spark Workers Memory上?如果我不删除 RDD ,它会永远在内存中吗? / li> 如果我的数据集(文件)大小超过了可用的RAM大小,数据将存储在哪里? 解决方案 如果我在HDFS的pySpark shell中创 ..
发布时间:2018-05-31 18:33:24 分布式计算/Hadoop