pyspark 第196页 - IT屋-程序员软件开发技术分享社区

RDD只有第一列值：Hbase，PySpark

我们正在使用以下命令阅读一个使用Pyspark的Hbase表。 from pyspark.sql.types import * host = port = keyConv =“org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConvert ..

发布时间：2018-05-31 19:34:34 python hadoop hbase bigdata pyspark Python

pyspark错误：AttributeError：'SparkSession'对象没有属性'parallelize'

我在Jupyter笔记本上使用pyspark。下面是Spark的设置： import findspark findspark.init（spark_home ='/ home / edamame / spark / spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive'，python_path ='python2.7'）从pyspark.s ..

发布时间：2018-05-31 19:33:12 python hadoop pandas apache-spark pyspark Python

为什么当我在pyspark中收集它们时，我的`binaryFiles`是空的？

在同一个文件夹中的hdfs上有两个zip文件： / user / path-to-folder-with-zips / 。我将它传递给pyspark中的“binaryfiles”： zips = sc.binaryFiles（'/ user / path-to-folder-with-zip /'）我试图解压zip文件并对其中的文本文件执行操作，因此我试图在我尝试 ..

发布时间：2018-05-31 19:26:55 python hadoop zip pyspark binaryfiles Python

Spark在内存中执行TB文件

让我们假设我有一个Tb数据文件。十个节点集群中的每个节点内存为3GB。我想使用spark来处理文件。但是，One TeraByte如何适应内存？它会抛出内存异常吗？它是如何工作的？解决方案正如Thilo提到的，Spark不需要加载内存中的所有内容就能够处理它。这是因为Spark会将数据划分为更小的块并分别进行操作。分区的数量，这个大小取决于几件事： ..

发布时间：2018-05-31 19:26:11 hadoop apache-spark pyspark 分布式计算/Hadoop

如何在pyspark中更改hdfs块的大小？

我使用pySpark编写实木复合地板文件。我想改变该文件的hdfs块大小。我设置了块大小，它不起作用： sc._jsc.hadoopConfiguration（）。set（“dfs .block.size“，”128m“）这是否必须在启动pySpark作业之前设置？如果是这样，如何做到这一点。解决方案尝试通过 sc._jsc.hadoopConfigurati ..

发布时间：2018-05-31 19:26:06 hadoop apache-spark hdfs pyspark apache-spark-1.6 分布式计算/Hadoop

java.lang.OutOfMemoryError：无法获取100个字节的内存，得到0

我使用以下命令在本地模式下使用Spark 2.0调用Pyspark： pyspark --executor-memory 4g --driver-memory 4g 输入数据帧正在从tsv文件中读取，并具有580 K x 28列。我在数据框上做了一些操作，然后我试图将它导出到tsv文件，我得到这个错误。 df.coalesce（1）.write.save（“ ..

发布时间：2018-05-31 19:16:51 python hadoop memory apache-spark pyspark Python

如何在Spark中分配和使用列标题？

f = sc.textFile（“s3：// test / abc。 csv“）我的文件包含50多个字段，我希望为每个字段分配列标题以供引用后来在我的脚本。我如何在PySpark中做到这一点？是DataFrame的方式去这里？ PS - 新手到Spark。解决方案以下是如何使用DataFrame添加列名称：假设你的csv有分隔 ..

发布时间：2018-05-31 19:16:02 python hadoop apache-spark pyspark multiple-columns Python

从Spark RDD中删除空分区

我从HDFS获取数据并将其存储在Spark RDD中。 Spark根据HDFS块的数量创建分区数量。这导致大量的空分区在管道中也被处理。为了消除这种开销，我想过滤掉RDD中的所有空分区。我知道聚结和重新分区，但不能保证所有空分区都将被删除。有没有其他方法可以解决这个问题？解决方案没有简单的方法简单地从RDD中删除空分区。 coalesce 不保证将删除空分区。如果您的RDD ..

发布时间：2018-05-31 19:14:26 hadoop apache-spark pyspark rdd 分布式计算/Hadoop

pyspark动态列计算

下面是我的火花数据框 abc 1 3 4 2 0 0 4 1 0 2 2 0 我的输出应该如下 abc 1 3 4 2 0 2 4 1 -1 2 2 3 公式为 prev（c）-b + a 即 4-2 + 0 = 2 和 2-4 + 1 = -1 任何人都可以帮我渡过这个障碍吗？来自pys ..

发布时间：2018-05-31 19:02:08 python hadoop apache-spark pyspark Python

Dataframe.toPandas始终在驱动程序节点上还是在工作节点上？

假设您正在通过SparkContext和Hive加载大型数据集。所以这个数据集然后分布在你的Spark集群中。例如，对数千个变量进行观察（值+时间戳）。现在您将使用一些map / reduce方法或聚合来组织/分析数据。例如按变量名分组。分组后，您可以将每个变量的所有观察值（值）作为时间序列数据框。如果您现在使用DataFrame.toPandas def myFuncti ..

发布时间：2018-05-31 19:01:51 python hadoop pandas apache-spark pyspark Python

PySpark安装错误

我遵循各种博客文章的指示，包括 a>，此，和这个在我的笔记本电脑上安装pyspark。但是，当我尝试从终端或jupyter笔记本使用pyspark时，我总是收到以下错误消息。我已经安装了所有必要的软件，如问题底部所示。 / p> 我已将以下内容添加到我的 .bashrc 函数sjupyter_init（） { ＃将anaconda3设置为python export PA ..

发布时间：2018-05-31 19:01:01 python hadoop apache-spark pyspark jupyter-notebook Python

PySpark：使用newAPIHadoopFile从多行记录文本文件读取，映射和缩小

我试图解决一个类似于这个问题帖子。我的原始数据是一个包含多个传感器值（观测值）的文本文件。每个观察结果都有一个时间戳，但传感器名称只给出一次，而不是每行。但是在一个文件中有几个传感器。时间MHist :: 852-YF-007 2016-05-10 00:00:00 0 2016-05-09 23:59:00 0 2016-05-09 23:58:00 0 2016-05- ..

发布时间：2018-05-31 18:59:35 python hadoop hdfs pyspark custom-formatting Python

无法让pyspark作业在hadoop群集的所有节点上运行

摘要：我无法让我的python-spark作业在我的hadoop群集的所有节点上运行。我已经为hadoop'spark-1.5.2-bin-hadoop2.6'安装了spark。当启动一个java spark工作时，负载在所有节点上分配，当启动一个python spark工作时，只有一个节点负载该工作。安装： hdfs和纱线配置为4个节点：nk01（namenode），n ..

发布时间：2018-05-31 18:58:36 hadoop apache-spark pyspark 分布式计算/Hadoop

直接从Spark shell读取ORC文件

我直接从Spark shell读取ORC文件时遇到问题。注意：使用pyspark shell运行Hadoop 1.2和Spark 1.2可以使用spark-shell（运行scala）。我已经使用了这个资源 http://docs.hortonworks.com/HDPDocuments/HDP2 /HDP-2.2.4/Apache_Spark_Quickstart_v224/conten ..

发布时间：2018-05-31 18:56:57 scala hadoop apache-spark hive pyspark 分布式计算/Hadoop

如何限制Yarn下Hadoop集群中资源的动态自我分配？

在我们的Yarn下运行的Hadoop集群中，我们遇到了一些问题，一些“更聪明”的人可以通过在pySpark Jupyter笔记本中配置Spark作业来消耗更多的资源。 conf =（SparkConf（） .setAppName（“name”） .setMaster（“yarn-client”）。 set（“spark.executor.instances”，“1000”） .se ..

发布时间：2018-05-31 18:56:25 hadoop apache-spark pyspark yarn 分布式计算/Hadoop

迈向限制大RDD

我正在阅读很多图片，我想在其中开发一小部分。因此，我正试图了解 ..

发布时间：2018-05-31 18:52:38 python hadoop apache-spark pyspark distributed-computing Python

Pyspark：获取HDFS路径上的文件/目录列表

如标题所示。我知道textFile，但顾名思义，它只适用于文本文件。我需要访问HDFS（或本地路径）路径中的文件/目录。我使用pyspark 感谢您的帮助我相信将Spark视为一种数据处理工具是有帮助的，其中一个域开始加载数据。它可以读取多种格式，并且支持Hadoop glob表达式，这对于从HDFS中的多个路径读取非常有用，但它没有我知道的用于遍历目录或文件的内置工具，也没有特定于与 ..

发布时间：2018-05-31 18:46:41 hadoop apache-spark pyspark 分布式计算/Hadoop

使用pyspark，在hadoop文件系统上读写二维图像

我希望能够在hdfs文件系统上读取/写入图像，并利用hdfs位置。我有一个图像集合，其中每个图像都由 2D基本附加信息数组uint16 存储为xml文件。我想通过hdfs文件系统创建存档，并使用spark来分析存档。现在我正努力将数据存储在hdfs文件系统上，以便充分利用spark + hdfs结构。据我所知，最好的方法是创建一个sequenceFile包装器。我有 ..

发布时间：2018-05-31 18:43:28 hadoop apache-spark sequencefile pyspark 分布式计算/Hadoop

Spark可以从pyspark访问Hive表，但不能从spark-submit中访问

因此，从pyspark运行时，我会输入（不指定任何上下文）： df_openings_latest = sqlContext.sql（ 'select * from experian_int_openings_latest_orc'） ..它工作正常。然而，当我从 spark-submit 运行我的脚本时，就像 spark-submit scri ..

发布时间：2018-05-31 18:34:54 python hadoop apache-spark pyspark Python

Spark RDD - 是否总是在RAM中进行分区？

我们都知道Spark在内存中进行计算。如果我创建10 RDD 在HDFS的pySpark shell中，是否所有这些10 RDD 的数据都驻留在Spark Workers Memory上？如果我不删除 RDD ，它会永远在内存中吗？ / li> 如果我的数据集（文件）大小超过了可用的RAM大小，数据将存储在哪里？解决方案如果我在HDFS的pySpark shell中创 ..

发布时间：2018-05-31 18:33:24 hadoop apache-spark pyspark hdfs rdd 分布式计算/Hadoop

pyspark相关内容