pyspark 第197页 - IT屋-程序员软件开发技术分享社区

如何关闭Spark中的INFO日志记录？

我使用AWS EC2指南安装了Spark，并且我可以使用 bin / pyspark 脚本启动程序以获得spark提示，并且还可以执行快速启动但是，我不能为我的生活找出如何停止所有详细的 INFO 在每条命令后面进行日志记录。在我的 log4j.properties中，我尝试了几乎所有可能的场景（注释掉，设置为OFF）在 conf 文件夹中的文件中，我从哪里启动应用程序以及在每个节点上执行 ..

发布时间：2018-05-31 18:23:11 python apache-spark hadoop pyspark yarn Python

如何在PySpark数据框中创建动态组？

虽然问题是基于连续行的两个或多个列的值创建多个组，但我只是通过这种方式简化了问题。假设有像这样的pyspark数据框 >>> df = sqlContext.createDataFrame（[ ... Row（SN = 1，age = 45，gender ='M'，name ='Bob'）， ... Row（SN = 2，年龄= 28，性别='M'，姓名='Albert'）， ...行 ..

发布时间：2018-05-30 14:14:55 scala group-by pyspark spark-dataframe rdd 其他开发

pyspark collect_set或collect_list与groupby

如何在 groupby collect_set 或 collect_list C $ C>。例如： df.groupby（'key'）。collect_set（'values'）。我得到一个错误： AttributeError：'GroupedData'对象没有属性'collect_set' 解决方案您需要使用agg。示例：pyspark import 导入HiveContext ..

发布时间：2018-05-30 13:38:03 list group-by set pyspark collect 其他开发

Spark中块矩阵乘法的错误

我创建了一个具有900万行和85K列的坐标矩阵cmat。我想执行cmat.T * cmat操作。我首先将cmat转换为块矩阵bmat： pre $ b $ cmat.toBlockMatrix（1000，1000）然而，我在执行multiply（）时遇到错误： $ b mtm = bmat.transpose.multiply（bmat） Traceback（最近的最后一次 ..

发布时间：2018-05-10 13:42:43 python pyspark google-cloud-platform google-cloud-dataproc Python

从bigquery加载表，并用pyspark脚本激发集群

我有一个在bigquery中加载的数据表，我想通过一个pyspark .py文件将它导入到我的Spark集群中。我在 Dataproc + BigQuery的例子 - 任何可用？，有一种方法来加载一个bigquery表的火花cluster with scala，但是有没有办法在pyspark脚本中做到这一点？解决方案这来自@MattJ in 这个问题。这是一个连接到Spark中 ..

发布时间：2018-05-07 17:30:21 python apache-spark google-bigquery pyspark google-cloud-dataproc Python

如何遍历pyspark中的每一行dataFrame

sqlContext = SQLContext（sc） sample = sqlContext.sql（“select ） sample.show（）上面的语句打印终端上的整个表，但我想用 for或while 访问该表中的每一行来执行进一步的计算。解决方案你可以定义一个自定义函数并使用map。 $ $ $ $ c $ def defFunction（row ..

发布时间：2018-01-27 23:12:37 python-3.x for-loop apache-spark pyspark 其他开发

如何在pyspark中使用filter（）删除空的tweets？

如何在pyspark中使用 filter（）删除空的tweets？我已经完成了以下工作： $ b $ pre $ t $ c $ tweets = 结果给我13995.然而当我从mongodb导入数据时，它显示了11186 我似乎无法应用 filter（）命令来删除空的tweets。如果你的数据像这样解决方案 > tweets = sc.parallelize（[“tit ..

发布时间：2017-11-08 20:42:04 mongodb filter pyspark tweets 其他开发

spark-streaming - pyspark如何一次提交多个文件？

问题 spark-submit指令，比如我要提交的python文件是几个互相import的文件，并且有的是在文件夹里的解决方案 http://stackoverflow.com/questions/29485175/spark-submit-failed-with-spark-streaming-workdcount-python-code ..

发布时间：2017-09-06 10:53:46 spark-streaming spark-submit spark pyspark 其他开发

将数据从pyspark写入ElasticSearch

我遵循这个文章将一些数据发送到AWS ES，我使用了jar弹性搜索。这是我的脚本： from pyspark import SparkContext，SparkConf from pyspark.sql import SQLContext if __name_ ==“__main__”： conf = SparkConf（）。setAppName（“WriteToES”） sc ..

发布时间：2017-08-07 04:11:48 python amazon-web-services hadoop elasticsearch pyspark Python

pyspark mysql jdbc load调用o23.load时发生错误没有合适的驱动程序

我在Mac上使用码头图像 sequenceiq / spark 研究这些 spark示例，在学习过程中，我将该图像内的火花升级到1.6.1根据此答案，当我开始发生错误简单数据操作示例，以下是发生了什么：当我运行 df = sqlContext.read.format（“jdbc”）。option（“url”，url）.option（“dbtable”，“people”）。load（）它引发 ..

发布时间：2017-06-10 20:42:30 mysql jdbc docker pyspark pyspark-sql 数据库

PySpark 1.5如何将时间戳从秒钟截断到最接近的分钟

我正在使用PySpark。数据帧（'canon_evt'）中有一列（'dt'），这是一个时间戳。我试图从DateTime值中删除秒。它最初是作为一个字符串从镶木地板读取的。然后我尝试通过 canon_evt = canon_evt.withColumn（'dt'，to_date（canon_evt.dt））将其转换为Timestamp canon_evt = canon_evt.wit ..

发布时间：2017-04-14 06:16:37 python datetime apache-spark apache-spark-sql pyspark Python

Spark Window函数 - rangeBetween日期

我有一个Spark SQL DataFrame 与数据，我想要得到的是在给定日期范围内的当前行之前的所有行。所以例如我想让所有的行从7天以前返回给定行。我想到，我需要使用窗口函数，如：窗口\ .partitionBy（'id'）\ .orderBy（'start'）这里有问题。我想要有一个 rangeBetween 7天，但Spark文档中没有什么可以找到。 S ..

发布时间：2017-04-06 20:05:48 python date apache-spark pyspark window-functions Python

Pyspark ---添加新的列与每组的值

假设我有以下数据集： a | b 1 | 0.4 1 | 0.8 1 | 0.5 2 | 0.4 2 | 0.1 我想添加一个名为“label”的新列，其中每个 a 中的值组。 a 组中 b 的最高值标记为1，所有其他标签为0。输出将如下所示： a | b |标签 1 | 0.4 | 0 1 | 0.8 | 1 1 | ..

发布时间：2017-03-26 04:13:37 apache-spark dataframe group-by pyspark 其他开发

DF中的每个组的pyspark corr（超过5K列）

我有一个具有1亿行和5000多列的DF。我试图在colx和剩余的5000+列之间找到corr。 aggList1 = [mean（col）.alias +'_m'）for col in df.columns] #exclude keys df21 = df.groupBy（'key1'，'key2'，'key3'，'key4'）。agg（* aggList1） df = df.joi ..

发布时间：2017-03-26 02:44:01 python-3.x apache-spark dataframe pyspark apache-spark-sql 其他开发

当将JSON文件读入Spark时_corrupt_record错误

我有这个JSON文件 { “a”：1， “ b“：2 } 这是使用Python json.dump方法获得的。现在，我想使用pyspark将此文件读入Spark中的DataFrame。以下文档，我正在这样做 sc = SparkContext（） sqlc = SQLContext（sc） df = sqlc.read.j ..

发布时间：2017-03-26 01:49:43 python json dataframe pyspark Python

在DataFrame中使用None / null值替换空字符串

我有一个 Spark 1.5.0 DataFrame ，混合使用 null 和同一列中的空字符串。我想将所有列中的所有空字符串转换为Python中的 null （ None ）。 DataFrame可能有数百列，所以我试图避免对每一列进行硬编码操作。看到我下面的尝试，这会导致错误。 / p> 从pyspark.sql导入SQLContext sqlContext = SQLCon ..

发布时间：2017-03-26 01:23:01 python apache-spark dataframe apache-spark-sql pyspark Python

重命名pyspark数据帧聚合的列

我正在使用pyspark数据框分析一些数据，假设我有一个数据框 df ，我正在汇总： df.groupBy（“group”）\ .agg（{“money”：“sum”}）\ .show（100）这将给我： group SUM（money＃2L） A 137461285853 B 172185566943 C 271179590646 ..

发布时间：2017-03-26 01:13:27 dataframe pyspark 其他开发

群集上运行Spark：初始作业尚未接受任何资源

我在 linode.com 上有一个远程Ubuntu服务器，具有4个内核和8G RAM 我的远程Ubuntu服务器上有一个包含1个主控和1个从机的Spark-2集群。我已经在我的MacBook上启动了PySpark shell ，通过以下方式连接到远程服务器上的我的主节点： $ PYSPARK_PYTHON = python3 /vagrant/spark-2.0 .0-bin-had ..

发布时间：2017-03-26 00:53:25 apache-spark dataframe pyspark spark-dataframe linode 其他开发

Apache Spark（Scala）中的简单随机抽样和数据帧SAMPLE函数如何工作？

Q1。我试图从Spark数据框（13行）中获取一个简单的随机样本，使用带有参数的示例函数，其中包括:Replacement：false，fraction：0.6，但是它每次运行时都会提供不同大小的样本，尽管它可以正常工作我设置了第三个参数（seed）。为什么这样？ Q2。随机数生成后的样本如何获取？提前感谢解决方案随机数生成后的样本如何获取？根据您要样本有两种 ..

发布时间：2017-03-25 23:09:42 scala apache-spark dataframe apache-spark-sql pyspark 其他开发

Spark：Dataframe.subtract返回一切，当键不是行中的第一个

我试图使用 SQLContext.subtract（）在Spark 1.6.1中从基于另一个数据帧的列从数据帧中删除行。让我们用一个例子： from pyspark.sql import Row df1 = sqlContext.createDataFrame（[ Row（name ='Alice'，age = 2）， Row（name ='Bob'，age = 1）， ]） ..

发布时间：2017-03-25 23:09:21 python apache-spark dataframe pyspark Python

pyspark相关内容