py4j - IT屋-程序员软件开发技术分享社区

在Google Colab上创建partkContext会导致：`RuntimeError：Java网关进程在发送其端口号之前已退出。`

以下是已成功安装的依赖项。 !apt-get install openjdk-8-jre !apt-get install scala !pip install py4j !wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz !tar xf spark-2.4.8-bin-h ..

发布时间：2022-03-15 15:36:22 python apache-spark pyspark google-colaboratory py4j Python

findspark.init() IndexError: list index out of range 错误

在 Python 3.5 Jupyter 环境中运行以下命令时，出现以下错误.关于导致它的原因有什么想法吗? import findsparkfindspark.init() 错误: IndexError Traceback(最近调用最后) 在 ()1 导入 findspark---->2 findspark.in ..

发布时间：2021-12-22 21:40:29 python apache-spark pyspark py4j Python

如何使用 AWS Glue 运行任意/DDL SQL 语句或存储过程

是否可以从 AWS Glue python 作业执行任意 SQL 命令，例如 ALTER TABLE?我知道我可以用它从表中读取数据，但是有没有办法执行其他数据库特定的命令? 我需要将数据摄取到目标数据库中，然后立即运行一些 ALTER 命令. 解决方案因此，在进行了广泛的研究并在 AWS 支持下打开了一个案例后，他们告诉我目前无法从 Python shell 或 Glue pys ..

发布时间：2021-12-22 21:24:22 pyspark aws-glue py4j 其他开发

在 PySpark 中运行自定义 Java 类

我正在尝试在 PySpark 中运行自定义 HDFS 读取器类.这个类是用 Java 编写的，我需要从 PySpark 访问它，无论是从 shell 还是通过 spark-submit. 在 PySpark 中，我从 SparkContext (sc._gateway) 中检索 JavaGateway. 假设我有一堂课: package org.foo.module公共类 Foo { ..

发布时间：2021-12-22 21:22:35 java python apache-spark pyspark py4j Java开发

JavaPackage 对象不可调用错误:Pyspark

像 dataframe.show()、sqlContext.read.json 这样的操作工作正常，但大多数函数给出“JavaPackage object is not callable error".例如:当我这样做时 dataFrame.withColumn(field_name, monotonically_increasing_id()) 出现错误文件“/tmp/spark-cd4 ..

发布时间：2021-11-14 23:53:33 apache-spark pyspark python-3.4 apache-zeppelin py4j 其他开发

在 Windows 上使用 pyspark 不起作用 - py4j

我使用在 Windows 上安装了 Zeppelin本教程和this.我还安装了 java 8 以避免出现问题. 我现在可以启动 Zeppelin 服务器，并且我正在尝试运行此代码 - %pysparka=5*4打印(“值= %i" % (a))版本我收到此错误，与 py4j 相关.我之前遇到过这个库的其他问题(与此处相同)，为了避免它们，我将计算机上 Zeppelin 和 Sp ..

发布时间：2021-11-14 23:52:57 apache-spark pyspark apache-zeppelin py4j 其他开发

方法 showString([class java.lang.Integer, class java.lang.Integer, class java.lang.Boolean]) 在 PySpark 中不存在

这是片段: from pyspark import SparkContext从 pyspark.sql.session 导入 SparkSessionsc = SparkContext()spark = SparkSession(sc)d = spark.read.format("csv").option("header", True).option("inferSchema", True).l ..

发布时间：2021-11-14 21:37:42 java apache-spark pyspark apache-spark-sql py4j Java开发

如何在 Python 中从 pySpark 添加 SparkListener?

我想创建一个 Jupyter/IPython 扩展来监控 Apache Spark 作业. Spark 提供了一个 REST API. 但是，我希望通过回调发送事件更新，而不是轮询服务器. 我正在尝试注册一个 SparkListener 与 SparkContext.addSparkListener().此功能在 Python 中的 PySpark SparkContext 对象 ..

发布时间：2021-11-12 05:41:08 apache-spark pyspark py4j 其他开发

如何添加第三方 Java JAR 文件以在 PySpark 中使用

我有一些用 Java 编写的第三方数据库客户端库.我想通过访问它们 java_gateway.py 例如:通过 Java 网关使 Python 客户端可以使用客户端类(不是 JDBC 驱动程序！): java_import(gateway.jvm,“org.mydatabase.MyDBClient") 不清楚在哪里将第三方库添加到 JVM 类路径.我试图添加到文件 compute-c ..

发布时间：2021-11-12 05:33:36 python apache-spark pyspark py4j Python

没有属性错误将广播变量从 PySpark 传递到 Java 函数

我在 PySpark 中注册了一个 java 类，我试图将一个 Broadcast 变量从 PySpark 传递给这个类中的一个方法.像这样: from py4j.java_gateway import java_importjava_import(spark.sparkContext._jvm,“net.a.b.c.MyClass")myPythonGateway = spark.sparkC ..

发布时间：2021-06-25 18:33:07 apache-spark pyspark py4j 其他开发

错误:无法找到 py4j，您的 SPARK_HOME 可能没有正确配置

我无法在 Jupyter 笔记本中运行以下导入. findspark.init('home/ubuntu/spark-3.0.0-bin-hadoop3.2') 出现以下错误: ---------------------------------------------------------------------------~/.local/lib/python3.6/site-pack ..

发布时间：2021-06-24 20:35:12 python ubuntu pyspark py4j Python

如何使用AWS Glue运行任意/DDL SQL语句或存储过程

是否可以从AWS Glue python作业执行任意SQL命令(如ALTER TABLE)?我知道我可以用它来读取表中的数据，但是有没有一种方法可以执行其他特定于数据库的命令? 我需要将数据提取到目标数据库中，然后立即运行一些ALTER命令. 解决方案因此，在进行了广泛的研究并在AWS支持下打开了一个案例之后，他们告诉我目前无法通过Python shell或Glue pyspark ..

发布时间：2021-04-13 18:34:11 pyspark aws-glue py4j 其他开发

如何添加第三方Java JAR文件以在PySpark中使用

我有一些Java第三方数据库客户端库.我想通过访问它们 java_gateway.py 例如:通过Java网关使客户端类(不是JDBC驱动程序！)对Python客户端可用: java_import(gateway.jvm，"org.mydatabase.MyDBClient") 尚不清楚将第三方库添加到JVM类路径的位置.我试图添加到文件 compute-classpath.s ..

发布时间：2021-04-08 19:21:50 python apache-spark pyspark py4j Python

Py4j无法连接到Java服务器

我试图编写一个简单的程序来使用py4j在python和java之间建立连接.我写了以下两行，希望所有内容都能正常运行，因为我没有进行任何更改 from py4j.java_gateway import JavaGateway, GatewayParameters gateway = JavaGateway(gateway_parameters=GatewayParameters(port=2 ..

发布时间：2020-07-04 20:30:55 python py4j Python

JavaPackage对象不可调用错误:Pyspark

诸如dataframe.show()，sQLContext.read.json之类的操作工作正常，但大多数功能都给出了"JavaPackage对象不可调用错误". 例如:当我这样做 dataFrame.withColumn(field_name, monotonically_increasing_id()) 我得到一个错误 File "/tmp/spark-cd423f35-957 ..

发布时间：2020-07-04 20:29:52 apache-spark pyspark python-3.4 apache-zeppelin py4j 其他开发

py4j.protocol.Py4JNetworkError:尝试连接到Java服务器时发生错误

我有以下来自py4j文档的简单示例: from py4j.java_gateway import JavaGateway def main(): print("Hello") gateway = JavaGateway() # connect to the JVM random = gateway.jvm.java.util.R ..

发布时间：2020-07-04 20:29:50 java python py4j Java开发

ModuleNotFoundError:没有名为"py4j"的模块

我安装了Spark，但在将pyspark模块加载到ipython时遇到了问题.我收到以下错误: ModuleNotFoundError Traceback (most recent call last) in ----> 1 import pyspark /o ..

发布时间：2020-07-04 20:29:48 python-3.x apache-spark hadoop pyspark py4j 其他开发

在Windows上使用pyspark无法正常工作-py4j

我使用在Windows上安装了Zeppelin本教程和此. 我还安装了Java 8以避免出现问题. 我现在能够启动Zeppelin服务器，并且我正在尝试运行此代码- %pyspark a=5*4 print("value = %i" % (a)) sc.version 我遇到了与py4j有关的错误.之前我对此库有其他问题(与此处)一样，为了避免出现这种情况，我将计算机上的Zeppe ..

发布时间：2020-07-04 20:29:44 apache-spark pyspark apache-zeppelin py4j 其他开发

Java InputStream转Python(PY4J)

我正在使用PY4J在python中运行Java代码( http://py4j.sourceforge.net/ ). 我的java函数返回一个InputStream，我想在我的python代码中对其进行操作: Java代码: public InputStream getPCAP(key) { InputStream inputStream = cyberStore ..

发布时间：2020-07-04 20:28:40 java python inputstream py4j Java开发

从Python连接和测试JDBC驱动程序

我正在尝试使用Python在我们的JDBC驱动程序上进行一些测试. 最初弄清楚JPype，我最终设法连接了驱动程序并执行了这样的选择查询(再现了通用代码段): from __future__ import print_function from jpype import * #Start JVM, attach the driver jar jvmpath = 'path/to/li ..

发布时间：2020-07-04 20:28:32 python jdbc py4j jpype Python

py4j相关内容