pyspark相关内容
或者一个更具体的问题是如何处理大量的数据,而这些数据一次不适合内存?用OFFSET我试图做hiveContext.sql(“select ... limit 10 offset 10”),同时递增偏移量以获取所有数据,但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么? 对于某些情况,pyspark代码以 from pyspark.sql im
..
我使用CDH5.5 我在HIVE默认数据库中创建了一个表,并能够从HIVE命令查询它。 输出 hive>默认情况下使用; 确定 所用时间:0.582秒 配置单元>展示桌子; 确定 银行 所需时间:0.341秒,提取:1行 配置单元>从银行选择计数(*); 确定 542 所需时间:64.961秒,提取:1行 但是,
..
我希望使用PySpark将Spark(v 1.3.0)数据框中的数据保存到Hive表中。 documentation 指出: “spark.sql.hive.convertMetastoreParquet:当设置为false时,Spark SQL将使用Hive SerDe而不是内置支持。” 查看 Spark教程,似乎可以设置这个属性: from pyspark.sql impo
..
首先,我做了两个表(RDD)以使用以下命令: rdd1 = sc.textFile('checkouts')。 map(lambda行:line.split(','))。map(lambda fields:((fields [0],fields [3],fields [5]),1)) rdd2 = sc.textFile ('inventory2')。map(lambda line:li
..
在 pyspark 中有一个数据框叫做 df 。我已将 df 注册为 temptable ,如下所示。 df.registerTempTable('mytempTable') date = datetime.now()。strftime('%Y-%m-%d%H:% M:%S') 现在从这张临时表中,我会得到某些值,如max_id列 id min_id =
..
我使用 ssh 连接到集群,并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中,然后尝试使用以下几行: counts.write.json(“hdfs:// home / myDir / text_file.txt“) counts.write.csv(”hdfs://home/myDir/text_file.c
..
因此,如果数据库中有一个表格,如下所示: Key2 DateTimeAge AAA1 XXX XXX XXX AAA2 XXX XXX XXX $ b $ AAA3 XXX XXX XXX $ b $ AAA4 XXX XXX XXX $ b AAA5 XXX XXX XXX $ b $ AAA6 XXX XXX XXX $ b AAA7 XXX XXX XXX AAA8 XXX XX
..
我有一个令人尴尬的并行任务,我使用Spark来分配计算。这些计算使用Python,我使用PySpark来读取和预处理数据。我的任务的输入数据存储在HBase中。不幸的是,我还没有找到一种令人满意的(即易于使用和可扩展的)方法来使用Python来读/写Spark中的HBase数据。 我的以前已经探讨过: 使用 happybase 。该软件包允许使用HBase的Thrift API从Pyt
..
使用pyspark将文本文件保存到S3时遇到问题。我可以保存到S3,但它首先上传到S3上的_temporary,然后继续复制到预期的位置。这显着增加了工作时间。我试图编译一个DirectFileOutputComter,它应该直接写入想要的S3 url,但我无法让Spark使用这个类。 示例: someRDD.saveAsTextFile(“s3a:// somebucket / sa
..
我使用spark 2.1,脚本是pyspark。请帮助我,因为我卡在这里。 问题陈述:根据多列的条件创建新列 输入 dataframe 低于 FLG1 FLG2 FLG3 TFT FTT TTF 现在我需要创建一个新的列作为FLG,并且我的条件将类似于如果 FLG1 == T&&(FLG2 == F || FLG2 == T) my
..
我正在尝试使用Spark API通过mllib的FP增长生成的频繁项目集 count 。我的火花是版本1.5.1。以下是我的代码: #!/ usr / bin / python $ b $ p from pyspark.mllib.fpm import FPGrowth 从pyspark导入SparkContext,SparkConf from pyspark import HiveC
..
我在EMR中使用Hive Metastore。我能够通过HiveSQL手动查询表。 但是当我在Spark Job中使用同一个表时,它表示 输入路径不存在:s3:// b $ b 引起:org.apache.hadoop.mapred.InvalidInputException:输入路径 不存在: s3:// .... 我已经在s3://中删除了我的上述分区路径,但它仍然可以在
..
我有这种奇怪的行为,我的用例是通过使用 sqlContext将Spark数据框写入配置单元分区表.sql(“INSERT OVERWRITE TABLE
PARTITION(”) 奇怪的是,当使用来自主机A的pyspark shell时,这种方式可行,但使用同一
..
许多教程提到, RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是,因为我的理解,预分区也会导致洗牌,为什么在这里提前洗牌会有利于某些操作?特别是将它自动激发,自我将对一组转换进行优化。 例如: 如果我想要要加入两个数据集国家(id,国家)和收入(id,(收入,月份,年份)),这两种操作有什么区别? (我使用PySpark模式) 通过id预分区 收入= income.
..
我试图从pyspark(版本2.2.0)访问s3(s3a协议),并且遇到了一些困难。 我正在使用Hadoop和AWS sdk包。 pyspark --packages com.amazonaws:aws-java-sdk-pom:1.10.34, org.apache.hadoop:hadoop-aws:2.7.2 这是我的代码的样子: sc._jsc.
..
使用AWS EMR上的spark从Oracle数据库读取数据时, 出现此错误消息: java.lang.ClassNotFoundException:oracle.jdbc.driver.OracleDriver。 有人可以告诉我有没有人遇到过这个问题,解决它? pyspark --driver-class-path /home/hadoop/ojdbc7.jar --jar
..
我试图通过spark删除停用词,代码如下 来自nltk.corpus从pyspark.context导入停用词 从pyspark.sql.session导入SparkContext import SparkSession $ b $ sc = SparkContext('local') spark = SparkSession(sc) word_list = [“我们自己”,“
..
我试图在Spark数据框中填入缺少的值和前面的非空值(如果存在)。我在Python / Pandas中完成了这种类型的工作,但是我的数据对于Pandas来说太大了(在一个小群集上),我是Spark noob。 Spark能做些什么吗?它可以做多列吗?如果是这样,怎么样?如果没有,对于Hadoop工具套件中的其他方法有何建议? 谢谢! 解决方案 我找到了一个解决方案,无需额外的编码就可
..
我在使用Ambari的spark 2.1.1和hadoop 2.6时遇到了问题。我首先在本地计算机上测试了我的代码(单节点,本地文件),一切都按预期工作: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .master('yarn')\ .appName( 'localTest')
..
我有Hortonworks HDP 2.6.3运行Spark2(v2.2)。我的测试用例非常简单: 使用一些随机值创建一个Hive表。 Hive at port 10000 打开Spark Thrift服务器(10016)通过10016查询Hive表 但是,由于NumberFormatException的原因,我无法从Spark中获取数据。 p> 下面是我的测试用例:
..