pyspark 第195页 - IT屋-程序员软件开发技术分享社区

在Pyspark HiveContext中，什么是SQL OFFSET的等价物？

或者一个更具体的问题是如何处理大量的数据，而这些数据一次不适合内存？用OFFSET我试图做hiveContext.sql（“select ... limit 10 offset 10”），同时递增偏移量以获取所有数据，但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么？对于某些情况，pyspark代码以 from pyspark.sql im ..

发布时间：2018-06-12 13:46:41 apache-spark hive pyspark 其他开发

查询pyspark中的HIVE表

我使用CDH5.5 我在HIVE默认数据库中创建了一个表，并能够从HIVE命令查询它。输出 hive>默认情况下使用; 确定所用时间：0.582秒配置单元>展示桌子; 确定银行所需时间：0.341秒，提取：1行配置单元>从银行选择计数（*）; 确定 542 所需时间：64.961秒，提取：1行但是， ..

发布时间：2018-06-12 13:41:34 hive pyspark 其他开发

将Spark数据框保存到Hive：表不可读，因为“parquet not a SequenceFile”

我希望使用PySpark将Spark（v 1.3.0）数据框中的数据保存到Hive表中。 documentation 指出： “spark.sql.hive.convertMetastoreParquet：当设置为false时，Spark SQL将使用Hive SerDe而不是内置支持。” 查看 Spark教程，似乎可以设置这个属性： from pyspark.sql impo ..

发布时间：2018-06-12 13:37:13 apache-spark hive apache-spark-sql pyspark 其他开发

Pyspark，错误：输入没有期望的模式所需值的数量和列之后的额外尾随逗号

首先，我做了两个表（RDD）以使用以下命令： rdd1 = sc.textFile（'checkouts'）。 map（lambda行：line.split（'，'））。map（lambda fields：（（fields [0]，fields [3]，fields [5]），1）） rdd2 = sc.textFile （'inventory2'）。map（lambda line：li ..

发布时间：2018-06-06 11:23:21 python apache-spark indexing pyspark hdfs Python

使用pyspark保存并附加HDFS文件

在 pyspark 中有一个数据框叫做 df 。我已将 df 注册为 temptable ，如下所示。 df.registerTempTable（'mytempTable'） date = datetime.now（）。strftime（'％Y-％m-％d％H：％ M：％S'）现在从这张临时表中，我会得到某些值，如max_id列 id min_id = ..

发布时间：2018-06-06 11:20:45 apache-spark pyspark hdfs spark-dataframe 其他开发

如何保存群集上的文件

我使用 ssh 连接到集群，并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中，然后尝试使用以下几行： counts.write.json（“hdfs：// home / myDir / text_file.txt“） counts.write.csv（”hdfs：//home/myDir/text_file.c ..

发布时间：2018-06-06 11:14:34 python apache-spark pyspark hdfs spark-submit Python

使用RDD中的索引扫描Spark中的Hadoop数据库表

因此，如果数据库中有一个表格，如下所示： Key2 DateTimeAge AAA1 XXX XXX XXX AAA2 XXX XXX XXX $ b $ AAA3 XXX XXX XXX $ b $ AAA4 XXX XXX XXX $ b AAA5 XXX XXX XXX $ b $ AAA6 XXX XXX XXX $ b AAA7 XXX XXX XXX AAA8 XXX XX ..

发布时间：2018-06-05 13:13:34 apache-spark hbase pyspark rdd 其他开发

如何使用Python连接HBase和Spark？

我有一个令人尴尬的并行任务，我使用Spark来分配计算。这些计算使用Python，我使用PySpark来读取和预处理数据。我的任务的输入数据存储在HBase中。不幸的是，我还没有找到一种令人满意的（即易于使用和可扩展的）方法来使用Python来读/写Spark中的HBase数据。我的以前已经探讨过：使用 happybase 。该软件包允许使用HBase的Thrift API从Pyt ..

发布时间：2018-06-05 13:09:52 python apache-spark hbase pyspark apache-spark-sql Python

Spark 1.6 DirectFileOutputCommitter

使用pyspark将文本文件保存到S3时遇到问题。我可以保存到S3，但它首先上传到S3上的_temporary，然后继续复制到预期的位置。这显着增加了工作时间。我试图编译一个DirectFileOutputComter，它应该直接写入想要的S3 url，但我无法让Spark使用这个类。示例： someRDD.saveAsTextFile（“s3a：// somebucket / sa ..

发布时间：2018-06-01 12:37:16 java hadoop amazon-s3 apache-spark pyspark Java开发

pyspark多个列的条件并返回新列

我使用spark 2.1，脚本是pyspark。请帮助我，因为我卡在这里。问题陈述：根据多列的条件创建新列输入 dataframe 低于 FLG1 FLG2 FLG3 TFT FTT TTF 现在我需要创建一个新的列作为FLG，并且我的条件将类似于如果 FLG1 == T&&（FLG2 == F || FLG2 == T） my ..

发布时间：2018-06-01 12:35:54 python hadoop apache-spark pyspark Python

为什么我的简单Spark应用程序工作得如此缓

我正在尝试使用Spark API通过mllib的FP增长生成的频繁项目集 count 。我的火花是版本1.5.1。以下是我的代码：＃！/ usr / bin / python $ b $ p from pyspark.mllib.fpm import FPGrowth 从pyspark导入SparkContext，SparkConf from pyspark import HiveC ..

发布时间：2018-05-31 20:29:16 python apache-spark hadoop pyspark Python

如果没有指定的分区路径可用，SPARK SQL将失败

我在EMR中使用Hive Metastore。我能够通过HiveSQL手动查询表。但是当我在Spark Job中使用同一个表时，它表示输入路径不存在：s3：// b $ b 引起：org.apache.hadoop.mapred.InvalidInputException：输入路径不存在： s3：// .... 我已经在s3：//中删除了我的上述分区路径，但它仍然可以在 ..

发布时间：2018-05-31 20:27:45 python hadoop apache-spark hive pyspark Python

从spark（2.11）数据框写入配置单元分区表时发生org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常

我有这种奇怪的行为，我的用例是通过使用 sqlContext将Spark数据框写入配置单元分区表.sql（“INSERT OVERWRITE TABLE PARTITION（”）奇怪的是，当使用来自主机A的pyspark shell时，这种方式可行，但使用同一 ..

发布时间：2018-05-31 20:25:25 hadoop apache-spark hive pyspark 分布式计算/Hadoop

为什么预分区会因减少洗牌而受益？

许多教程提到， RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是，因为我的理解，预分区也会导致洗牌，为什么在这里提前洗牌会有利于某些操作？特别是将它自动激发，自我将对一组转换进行优化。例如：如果我想要要加入两个数据集国家（id，国家）和收入（id，（收入，月份，年份）），这两种操作有什么区别？（我使用PySpark模式）通过id预分区收入= income. ..

发布时间：2018-05-31 20:23:34 hadoop apache-spark pyspark rdd partition 分布式计算/Hadoop

使用Spark的S3a协议访问S3使用Hadoop版本2.7.2

我试图从pyspark（版本2.2.0）访问s3（s3a协议），并且遇到了一些困难。我正在使用Hadoop和AWS sdk包。 pyspark --packages com.amazonaws：aws-java-sdk-pom：1.10.34， org.apache.hadoop：hadoop-aws：2.7.2 这是我的代码的样子： sc._jsc. ..

发布时间：2018-05-31 20:15:11 amazon-web-services hadoop apache-spark amazon-s3 pyspark 分布式计算/Hadoop

从oracle导入数据 - java.lang.ClassNotFoundException：oracle.jdbc.driver.OracleDriver

使用AWS EMR上的spark从Oracle数据库读取数据时，出现此错误消息： java.lang.ClassNotFoundException：oracle.jdbc.driver.OracleDriver。有人可以告诉我有没有人遇到过这个问题，解决它？ pyspark --driver-class-path /home/hadoop/ojdbc7.jar --jar ..

发布时间：2018-05-31 20:01:54 python oracle hadoop apache-spark pyspark 数据库

pickle.PicklingError：来自newobj args的args [0]与hadoop python有错误的类

我试图通过spark删除停用词，代码如下来自nltk.corpus从pyspark.context导入停用词从pyspark.sql.session导入SparkContext import SparkSession $ b $ sc = SparkContext（'local'） spark = SparkSession（sc） word_list = [“我们自己”，“ ..

发布时间：2018-05-31 20:01:09 python python-2.7 hadoop pyspark pickle Python

在Spark / Python中向前填充缺失的值

我试图在Spark数据框中填入缺少的值和前面的非空值（如果存在）。我在Python / Pandas中完成了这种类型的工作，但是我的数据对于Pandas来说太大了（在一个小群集上），我是Spark noob。 Spark能做些什么吗？它可以做多列吗？如果是这样，怎么样？如果没有，对于Hadoop工具套件中的其他方法有何建议？谢谢！解决方案我找到了一个解决方案，无需额外的编码就可 ..

发布时间：2018-05-31 20:00:40 hadoop apache-spark pyspark spark-dataframe apache-spark-mllib 分布式计算/Hadoop

读取来自hdfs的ocr文件后不可思议地触发数据框

我在使用Ambari的spark 2.1.1和hadoop 2.6时遇到了问题。我首先在本地计算机上测试了我的代码（单节点，本地文件），一切都按预期工作： from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .master（'yarn'）\ .appName（ 'localTest'） ..

发布时间：2018-05-31 19:51:52 hadoop apache-spark pyspark hdfs yarn 分布式计算/Hadoop

Spark 2.2查询Hive表时，Dataframe上的Thrift服务器错误NumberFormatException

我有Hortonworks HDP 2.6.3运行Spark2（v2.2）。我的测试用例非常简单：使用一些随机值创建一个Hive表。 Hive at port 10000 打开Spark Thrift服务器（10016）通过10016查询Hive表但是，由于NumberFormatException的原因，我无法从Spark中获取数据。 p> 下面是我的测试用例： ..

发布时间：2018-05-31 19:44:22 python hadoop hive pyspark apache-spark-2.0 Python

pyspark相关内容