google-cloud-dataproc - IT屋-程序员软件开发技术分享社区

在Airflow上使用DataProOperator的组件网关

在GCP中，从UI或gCloud命令安装和运行JupyterHub component相当简单。我试图通过气流和DataprocClusterCreateOperator编写这个过程的脚本，这里是DAG的摘录 from airflow.contrib.operators import dataproc_operator create_cluster=dataproc_operator. ..

有没有办法从运行在Google Cloud Platform DataProc集群上的Jupyter笔记本中导入和运行保存的.py文件中的函数？

在本机运行Jupyter Notebook时，从保存的.py脚本导入函数和实用程序非常简单。当我在运行在Google Cloud Platform DataProc集群上的Jupyter笔记本上工作时--(在将.py脚本上传到我的DataProc Jupyter笔记本之后--因此它在云中*)--我无法将该函数导入到(Dataproc)笔记本中。有人知道我如何做到这一点吗？这仅仅与找 ..

发布时间：2022-03-30 21:57:09 python google-cloud-platform jupyter-notebook cluster-computing google-cloud-dataproc Python

如何使用Python SDK创建具有生存时间的Dataproc集群

我尝试使用python SDK创建一个生存时间为1天的Dataproc集群。为此，Dataproc API的v1beta2引入了LifecycleConfig object，它是ClusterConfig对象的子级。我在JSON文件中使用此对象，并将其传递给create_cluster方法。要设置特定的TTL，我使用了值为86,400秒(一天)的字段auto_delete_ttl。 Th ..

发布时间：2022-03-09 16:28:40 python protocol-buffers google-cloud-dataproc Python

DataProc不解压缩作为存档传递的文件

我正在尝试使用.NET电光作业提交数据过程。命令行如下所示： gcloud dataproc jobs submit spark --cluster= --region= --class=org.apache.spark.deploy.dotnet.DotnetRunner --jars=gs://bucket ..

发布时间：2022-02-21 13:13:19 .net apache-spark google-cloud-platform google-cloud-dataproc C#/.NET

PySpark + 谷歌云存储(wholeTextFiles)

我正在尝试使用 PySpark (Google Dataproc) 解析大约 100 万个 HTML 文件，并将相关字段写入压缩文件.每个 HTML 文件大约 200KB.因此，所有数据约为 200GB. 如果我使用数据的子集，下面的代码可以正常工作，但运行几个小时，然后在整个数据集上运行时崩溃.此外，工作节点未使用( 我相信系统会因从 GCS 中提取数据而窒息.有一个更好的方法吗?另外， ..

发布时间：2022-01-25 20:28:03 google-cloud-storage google-compute-engine pyspark google-cloud-dataproc 其他开发

Dataproc 导入 python 模块存储在谷歌云存储 (gcs) 存储桶中

..

发布时间：2022-01-25 20:03:30 google-cloud-storage python-import google-cloud-dataproc 其他开发

“方案没有文件系统:gs"在本地运行火花作业时

..

发布时间：2022-01-25 19:40:40 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 其他开发

Dataproc 上 Spark 的 BigQuery 连接器 - 无法使用服务帐户密钥文件进行身份验证

我已遵循将 BigQuery 连接器与 Spark 结合使用从公开可用的数据集中成功获取数据.我现在需要访问一个由我们的一个客户拥有的 bigquery 数据集，我已经为其提供了一个服务帐户密钥文件(我知道服务帐户密钥文件是有效的，因为我可以使用它来使用 conf=conf) 文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/context.p ..

发布时间：2021-12-30 23:16:48 google-bigquery google-cloud-dataproc 其他开发

通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

我有一个存储在 BigQuery 表中的大型数据集，我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad ..

发布时间：2021-12-30 23:00:29 apache-spark google-bigquery pyspark google-hadoop google-cloud-dataproc 其他开发

Dataproc hive 操作员未运行存储在存储桶中的 hql 文件

我正在尝试使用气流脚本运行云存储中存在的 hql 文件，我们可以通过两个参数将路径传递给 DataprocHiveOperator: 查询:'gs://bucketpath/filename.q' 发生错误 - 无法识别靠近 'gs' ':' '/' 的输入 query_uri :'gs://bucketpath/filename.q' 发生错误:PendingDeprec ..

发布时间：2021-12-28 23:57:24 python hive airflow google-cloud-dataproc apache-airflow Python

ModuleNotFoundError 因为 PySpark 序列化程序无法找到库文件夹

我有以下文件夹结构 - 库文件夹- lib1.py- lib2.py- main.py main.py 调用 libfolder.lib1.py 然后调用 libfolder.lib2.py 和其他. 在本地机器上一切正常，但在我将其部署到 Dataproc 后，出现以下错误文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/seria ..

发布时间：2021-12-22 21:30:46 python apache-spark pyspark google-cloud-dataproc Python

在来自 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库

我有一个通过 google dataproc 创建的 Spark 集群.我希望能够使用 databricks 中的 csv 库(参见 https://github.com/databricks/spark-csv).所以我先是这样测试的: 我与集群的主节点启动了 ssh 会话，然后输入: pyspark --packages com.databricks:spark-csv_2.11:1. ..

发布时间：2021-12-22 21:27:39 import apache-spark pyspark google-cloud-dataproc 其他开发

如何在 Dataproc 集群启动时自动安装 Python 库?

如何在集群启动时在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点手动安装我需要的库的麻烦. 很高兴知道这种自动化安装是否可以仅在主服务器上而不是在工作器上安装东西. 解决方案初始化操作是最好的方法.初始化操作是在创建集群时运行的 shell 脚本.这将允许您自定义集群，例如安装 Python 库.这些脚本必须存储在 Google C ..

发布时间：2021-12-20 19:18:40 hadoop apache-spark google-cloud-platform google-cloud-dataproc 其他开发

GCP Dataproc - 配置 YARN 公平调度程序

我试图建立一个 dataproc 集群，它一次只计算一个作业(或指定的最大作业)，其余的将在队列中. 我找到了这个解决方案，如何配置垄断FIFOYARN 中的应用程序队列? ，但由于我一直在创建新集群，因此我需要将其自动化.我已将此添加到集群创建中: "softwareConfig": {“特性": {"yarn:yarn.resourcemanager.scheduler.class": ..

发布时间：2021-12-20 18:54:28 google-cloud-platform hadoop-yarn google-cloud-dataproc 其他开发

无法在 Google DataProc 的 jupyter 中添加 jars pyspark

我在 DataProc 上有一个 Jupyter 笔记本，我需要一个 jar 来运行一些作业.我知道编辑 spark-defaults.conf 并使用 --jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar从命令行提交作业 - 它们都运行良好.但是，如果我想直接将jar添加到jupyter notebook，我尝试了以下方法，它们都失败了 ..

发布时间：2021-12-20 18:52:59 google-cloud-platform pyspark jupyter-notebook google-cloud-dataproc 其他开发

Google Cloud Dataproc 配置问题

我在运行的一些 Spark LDA 主题建模中遇到了各种问题(主要是看似随机间隔的分离错误)，我认为这主要与我的执行程序上的内存分配不足有关.这似乎与有问题的自动集群配置有关.我最近的一次尝试使用 n1-standard-8 机器(8 个内核，30GB RAM)作为主节点和工作节点(6 个工作节点，所以总共 48 个内核). 但是当我查看 /etc/spark/conf/spark-defa ..

发布时间：2021-12-20 18:52:07 apache-spark google-cloud-platform lda google-cloud-dataproc 其他开发

Dataproc + BigQuery 示例 - 有没有可用的?

根据 Dataproc docos，它具有“与 BigQuery 的本机和自动集成". 我在 BigQuery 中有一张表.我想读取该表并使用我创建的 Dataproc 集群(使用 PySpark 作业)对其进行一些分析.然后将此分析的结果写回 BigQuery.您可能会问“为什么不直接在 BigQuery 中进行分析！?"- 原因是因为我们正在创建复杂的统计模型，而 SQL 级别太高，无法 ..

发布时间：2021-12-20 18:38:32 google-bigquery google-cloud-platform google-cloud-dataproc 其他开发

Google Cloud Platform:如何监控 VM 实例的内存使用情况

我最近执行了到 Google Cloud Platform 的迁移，我非常喜欢它. 但是，我找不到监控 Dataproc VM 实例的内存使用情况的方法.正如您在附件中看到的，控制台提供有关 CPU、磁盘和网络的利用率信息，但不提供有关内存的信息. 在不知道使用了多少内存的情况下，如何理解是否需要额外的内存? 解决方案通过安装 GCE 虚拟机中的 Stackdriver 代理 ..

发布时间：2021-12-20 18:37:14 memory google-cloud-platform memory-management google-compute-engine google-cloud-dataproc 其他开发

“Scheme 没有文件系统:gs"在本地运行 spark 作业时

我正在运行 Spark 作业(版本 1.2.0)，输入是 Google Clous Storage 存储桶中的文件夹(即 gs://mybucket/folder) 在我的 Mac 机器上本地运行作业时，我收到以下错误: 5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败，错误:无 ..

发布时间：2021-12-15 19:21:04 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 其他开发

向 Google Dataproc 提交 Uber Jar 时如何解决 Guava 依赖问题

我正在使用 maven shade 插件来构建 Uber jar，以便将其作为作业提交给 google dataproc 集群.Google 已在其集群上安装了 Apache Spark 2.0.2 Apache Hadoop 2.7.3. Apache spark 2.0.2 使用 com.google.guava 的 14.0.1 和 apache hadoop 2.7.3 使用 11. ..

发布时间：2021-12-15 19:00:59 hadoop apache-spark spark-cassandra-connector google-cloud-dataproc 其他开发

google-cloud-dataproc相关内容