pyspark相关内容

配置 Spark 以与 Jupyter Notebook 和 Anaconda 一起使用

我花了几天时间试图让 Spark 与我的 Jupyter Notebook 和 Anaconda 一起工作.这是我的 .bash_profile 的样子: PATH=“/my/path/to/anaconda3/bin:$PATH"export JAVA_HOME="/my/path/to/jdk";export PYTHON_PATH=“/my/path/to/anaconda3/bin/py ..
发布时间:2021-11-27 11:53:20 Python

如何让 matplotlib 在 AWS EMR Jupyter notebook 中工作?

这与此问题非常接近,但我针对我的问题添加了一些详细信息: 使用 AWS-EMR jupyter notebook 进行 Matplotlib 绘图 我想找到一种在我的 Jupyter 笔记本中使用 matplotlib 的方法.这是错误的代码片段,它相当简单: 笔记本 import matplotlibmatplotlib.use("agg")导入 matplotlib.pyp ..
发布时间:2021-11-27 10:11:31 Python

AWS EMR 上的奇怪火花错误

我有一个非常简单的 PySpark 脚本,它从 S3 上的一些镶木地板数据创建一个数据框,然后调用 count() 方法并打印出记录数. 我在 AWS EMR 集群上运行脚本,我看到以下奇怪的警告信息: 17/12/04 14:20:26 警告 ServletHandler:javax.servlet.ServletException: java.util.NoSuchElementExc ..
发布时间:2021-11-27 10:08:05 其他开发

AWS 粘合作业将字符串映射到日期和时间格式,同时从 csv 转换为镶木地板

在从 csv 转换为 parquet 时,使用 AWS 胶水 ETL 作业跟随 csv 中的映射字段读取为字符串到日期和时间类型.这是实际的 csv 文件 映射和转换后,日期字段为空,时间与今天的日期连接 如何以正确的日期和时间格式进行转换? 解决方案 它使用 presto 数据类型,因此数据应该采用正确的格式 DATE 日历日期(年、月、日). 示例:日期'200 ..
发布时间:2021-11-27 08:53:15 其他开发

火花雅典娜连接器

我需要在 spark 中使用 Athena 但 spark 在使用 JDBC 驱动程序时使用了 PreparedStatement 并且它给了我一个异常“com.amazonaws.athena.jdbc.NotImplementedException:方法 Connection.prepareStatement 尚未实现" 请告诉我如何在 spark 中连接 Athena 解决方案 ..
发布时间:2021-11-27 08:52:04 其他开发

Spark:如何使用 Scala 或 Java 用户定义函数映射 Python?

例如,假设我的团队选择 Python 作为使用 Spark 进行开发的参考语言.但后来出于性能原因,我们希望开发特定的 Scala 或 Java 特定的库,以便将它们与我们的 Python 代码(类似于带有 Scala 或 Java 框架的 Python 存根)进行映射. 您不认为可以将新的自定义 Python 方法与一些 Scala 或 Java 用户定义函数进行交互吗? 解决方案 ..
发布时间:2021-11-25 17:49:38 Java Web开发

如何展平 Spark 数据帧中的结构?

我有一个具有以下结构的数据框: |-- data: struct (nullable = true)||-- id: long (nullable = true)||-- keyNote: struct (nullable = true)|||-- 键:字符串(可为空 = 真)|||-- 注意:字符串(可为空 = 真)||-- 详细信息:地图(可为空 = 真)|||-- 键:字符串|||-- ..
发布时间:2021-11-25 17:27:01 Java Web开发

pySpark Kafka Direct Streaming 更新 Zookeeper/Kafka Offset

目前我正在使用 Kafka/Zookeeper 和 pySpark (1.6.0).我已经成功创建了一个 kafka 消费者,它使用了 KafkaUtils.createDirectStream(). 所有流媒体都没有问题,但我认识到,在我消费了一些消息后,我的 Kafka 主题没有更新到当前偏移量. 因为我们需要更新主题以在此处进行监控,所以这有点奇怪. 在 Spark 的文档 ..
发布时间:2021-11-14 23:55:51 其他开发

JavaPackage 对象不可调用错误:Pyspark

像 dataframe.show()、sqlContext.read.json 这样的操作工作正常,但大多数函数给出“JavaPackage object is not callable error".例如:当我这样做时 dataFrame.withColumn(field_name, monotonically_increasing_id()) 出现错误 文件“/tmp/spark-cd4 ..
发布时间:2021-11-14 23:53:33 其他开发

如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake,但似乎无法成功导入模块.例如 %pyspark从 delta.tables 导入 * 失败并出现以下错误: ModuleNotFoundError: 没有名为“delta"的模块 但是,使用delta格式保存/读取数据帧是没有问题的.如果使用scala spark %spark 可以成功加 ..
发布时间:2021-11-14 23:53:12 其他开发

在 Windows 上使用 pyspark 不起作用 - py4j

我使用 在 Windows 上安装了 Zeppelin本教程和this.我还安装了 java 8 以避免出现问题. 我现在可以启动 Zeppelin 服务器,并且我正在尝试运行此代码 - %pysparka=5*4打印(“值= %i" % (a))版本 我收到此错误,与 py4j 相关.我之前遇到过这个库的其他问题(与 此处 相同),为了避免它们,我将计算机上 Zeppelin 和 Sp ..
发布时间:2021-11-14 23:52:57 其他开发

结构化流 Kafka 2.1->Zeppelin 0.8->Spark 2.4:spark 不使用 jar

我有一个 Kafka 2.1 消息代理,想对 Spark 2.4 中的消息数据进行一些处理.我想使用 Zeppelin 0.8.1 notebooks 进行快速原型设计. 我下载了结构化流媒体所必需的 spark-streaming-kafka-0-10_2.11.jar (http://spark.apache.org/docs/latest/structured-streaming-ka ..
发布时间:2021-11-14 23:52:17 其他开发

如何在 HDP 中的 zeppelin-spark2 中将库安装到 python

我使用的是 HDP 版本:2.6.4 您能否提供有关如何将库安装到 spark2 下的以下 python 目录的分步说明? sc.version(spark 版本)返回 res0: String = 2.2.0.2.6.4.0-91 spark2解释器名称和值如下 zeppelin.pyspark.python:/usr/local/Python-3.4.8/bin/python ..
发布时间:2021-11-14 23:51:11 其他开发

如何在 Zeppelin 中的 %pyspark 解释器和 %python 解释器之间传递数据集?

我正在编写代码,其中使用内部库和 %pyspark 解释器获取数据集.但是我无法将数据集传递给 %python 解释器.我尝试使用字符串变量并且它工作正常,但是对于数据集,我使用以下代码将数据集放在 zeppelin 上下文中 - z.put("input_data",input_data) 它抛出以下错误: AttributeError: 'DataFrame' 对象没有属性 '_g ..
发布时间:2021-11-14 23:50:29 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..
发布时间:2021-11-14 23:49:52 其他开发

将“SPARK_HOME"设置为什么?

安装apache-maven-3.3.3,scala 2.11.6,然后运行: $ git clone git://github.com/apache/spark.git -b branch-1.4$ cd火花$ build/mvn -DskipTests 干净的包 最后: $ git clone https://github.com/apache/incubator-zeppelin$ c ..
发布时间:2021-11-14 23:49:28 其他开发

使用 pyspark 的 toPandas() 错误:“int"对象不可迭代

我有一个 pyspark 数据框,我正在尝试使用 toPandas() 将其转换为 Pandas,但是我遇到了下面提到的错误. 我尝试了不同的选项,但得到了相同的错误: 1) 将数据限制为仅几条记录 2) 明确使用 collect()(我相信 toPandas() 固有地使用) 探索了许多关于 SO 的帖子,但 AFAIK 没有一个有 toPandas() 问题. 我的数据帧 ..
发布时间:2021-11-14 23:49:21 其他开发