pyspark相关内容

在Pyspark HiveContext中,什么是SQL OFFSET的等价物?

或者一个更具体的问题是如何处理大量的数据,而这些数据一次不适合内存?用OFFSET我试图做hiveContext.sql(“select ... limit 10 offset 10”),同时递增偏移量以获取所有数据,但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么? 对于某些情况,pyspark代码以 from pyspark.sql im ..
发布时间:2018-06-12 13:46:41 其他开发

查询pyspark中的HIVE表

我使用CDH5.5 我在HIVE默认数据库中创建了一个表,并能够从HIVE命令查询它。 输出 hive>默认情况下使用; 确定 所用时间:0.582秒 配置单元>展示桌子; 确定 银行 所需时间:0.341秒,提取:1行 配置单元>从银行选择计数(*); 确定 542 所需时间:64.961秒,提取:1行 但是, ..
发布时间:2018-06-12 13:41:34 其他开发

如何保存群集上的文件

我使用 ssh 连接到集群,并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中,然后尝试使用以下几行: counts.write.json(“hdfs:// home / myDir / text_file.txt“) counts.write.csv(”hdfs://home/myDir/text_file.c ..
发布时间:2018-06-06 11:14:34 Python

如何使用Python连接HBase和Spark?

我有一个令人尴尬的并行任务,我使用Spark来分配计算。这些计算使用Python,我使用PySpark来读取和预处理数据。我的任务的输入数据存储在HBase中。不幸的是,我还没有找到一种令人满意的(即易于使用和可扩展的)方法来使用Python来读/写Spark中的HBase数据。 我的以前已经探讨过: 使用 happybase 。该软件包允许使用HBase的Thrift API从Pyt ..
发布时间:2018-06-05 13:09:52 Python

Spark 1.6 DirectFileOutputCommitter

使用pyspark将文本文件保存到S3时遇到问题。我可以保存到S3,但它首先上传到S3上的_temporary,然后继续复制到预期的位置。这显着增加了工作时间。我试图编译一个DirectFileOutputComter,它应该直接写入想要的S3 url,但我无法让Spark使用这个类。 示例: someRDD.saveAsTextFile(“s3a:// somebucket / sa ..
发布时间:2018-06-01 12:37:16 Java开发

pyspark多个列的条件并返回新列

我使用spark 2.1,脚本是pyspark。请帮助我,因为我卡在这里。 问题陈述:根据多列的条件创建新列 输入 dataframe 低于 FLG1 FLG2 FLG3 TFT FTT TTF 现在我需要创建一个新的列作为FLG,并且我的条件将类似于如果 FLG1 == T&&(FLG2 == F || FLG2 == T) my ..
发布时间:2018-06-01 12:35:54 Python

为什么预分区会因减少洗牌而受益?

许多教程提到, RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是,因为我的理解,预分区也会导致洗牌,为什么在这里提前洗牌会有利于某些操作?特别是将它自动激发,自我将对一组转换进行优化。 例如: 如果我想要要加入两个数据集国家(id,国家)和收入(id,(收入,月份,年份)),这两种操作有什么区别? (我使用PySpark模式) 通过id预分区 收入= income. ..
发布时间:2018-05-31 20:23:34 分布式计算/Hadoop

在Spark / Python中向前填充缺失的值

我试图在Spark数据框中填入缺少的值和前面的非空值(如果存在)。我在Python / Pandas中完成了这种类型的工作,但是我的数据对于Pandas来说太大了(在一个小群集上),我是Spark noob。 Spark能做些什么吗?它可以做多列吗?如果是这样,怎么样?如果没有,对于Hadoop工具套件中的其他方法有何建议? 谢谢! 解决方案 我找到了一个解决方案,无需额外的编码就可 ..

Spark 2.2查询Hive表时,Dataframe上的Thrift服务器错误NumberFormatException

我有Hortonworks HDP 2.6.3运行Spark2(v2.2)。我的测试用例非常简单: 使用一些随机值创建一个Hive表。 Hive at port 10000 打开Spark Thrift服务器(10016)通过10016查询Hive表 但是,由于NumberFormatException的原因,我无法从Spark中获取数据。 p> 下面是我的测试用例: ..
发布时间:2018-05-31 19:44:22 Python