google-cloud-dataproc相关内容

有没有办法从运行在Google Cloud Platform DataProc集群上的Jupyter笔记本中导入和运行保存的.py文件中的函数?

在本机运行Jupyter Notebook时,从保存的.py脚本导入函数和实用程序非常简单。 当我在运行在Google Cloud Platform DataProc集群上的Jupyter笔记本上工作时--(在将.py脚本上传到我的DataProc Jupyter笔记本之后--因此它在云中*)--我无法将该函数导入到(Dataproc)笔记本中。 有人知道我如何做到这一点吗?这仅仅与找 ..

如何使用Python SDK创建具有生存时间的Dataproc集群

我尝试使用python SDK创建一个生存时间为1天的Dataproc集群。为此,Dataproc API的v1beta2引入了LifecycleConfig object,它是ClusterConfig对象的子级。 我在JSON文件中使用此对象,并将其传递给create_cluster方法。要设置特定的TTL,我使用了值为86,400秒(一天)的字段auto_delete_ttl。 Th ..
发布时间:2022-03-09 16:28:40 Python

PySpark + 谷歌云存储(wholeTextFiles)

我正在尝试使用 PySpark (Google Dataproc) 解析大约 100 万个 HTML 文件,并将相关字段写入压缩文件.每个 HTML 文件大约 200KB.因此,所有数据约为 200GB. 如果我使用数据的子集,下面的代码可以正常工作,但运行几个小时,然后在整个数据集上运行时崩溃.此外,工作节点未使用( 我相信系统会因从 GCS 中提取数据而窒息.有一个更好的方法吗?另外, ..

Dataproc 上 Spark 的 BigQuery 连接器 - 无法使用服务帐户密钥文件进行身份验证

我已遵循 将 BigQuery 连接器与 Spark 结合使用 从公开可用的数据集中成功获取数据.我现在需要访问一个由我们的一个客户拥有的 bigquery 数据集,我已经为其提供了一个服务帐户密钥文件(我知道服务帐户密钥文件是有效的,因为我可以使用它来使用 conf=conf) 文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/context.p ..
发布时间:2021-12-30 23:16:48 其他开发

通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad ..

如何在 Dataproc 集群启动时自动安装 Python 库?

如何在集群启动时在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点手动安装我需要的库的麻烦. 很高兴知道这种自动化安装是否可以仅在主服务器上而不是在工作器上安装东西. 解决方案 初始化操作是最好的方法.初始化操作是在创建集群时运行的 shell 脚本.这将允许您自定义集群,例如安装 Python 库.这些脚本必须存储在 Google C ..

GCP Dataproc - 配置 YARN 公平调度程序

我试图建立一个 dataproc 集群,它一次只计算一个作业(或指定的最大作业),其余的将在队列中. 我找到了这个解决方案,如何配置垄断FIFOYARN 中的应用程序队列? ,但由于我一直在创建新集群,因此我需要将其自动化.我已将此添加到集群创建中: "softwareConfig": {“特性": {"yarn:yarn.resourcemanager.scheduler.class": ..

无法在 Google DataProc 的 jupyter 中添加 jars pyspark

我在 DataProc 上有一个 Jupyter 笔记本,我需要一个 jar 来运行一些作业.我知道编辑 spark-defaults.conf 并使用 --jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar从命令行提交作业 - 它们都运行良好.但是,如果我想直接将jar添加到jupyter notebook,我尝试了以下方法,它们都失败了 ..

Google Cloud Dataproc 配置问题

我在运行的一些 Spark LDA 主题建模中遇到了各种问题(主要是看似随机间隔的分离错误),我认为这主要与我的执行程序上的内存分配不足有关.这似乎与有问题的自动集群配置有关.我最近的一次尝试使用 n1-standard-8 机器(8 个内核,30GB RAM)作为主节点和工作节点(6 个工作节点,所以总共 48 个内核). 但是当我查看 /etc/spark/conf/spark-defa ..

Dataproc + BigQuery 示例 - 有没有可用的?

根据 Dataproc docos,它具有“与 BigQuery 的本机和自动集成". 我在 BigQuery 中有一张表.我想读取该表并使用我创建的 Dataproc 集群(使用 PySpark 作业)对其进行一些分析.然后将此分析的结果写回 BigQuery.您可能会问“为什么不直接在 BigQuery 中进行分析!?"- 原因是因为我们正在创建复杂的统计模型,而 SQL 级别太高,无法 ..

Google Cloud Platform:如何监控 VM 实例的内存使用情况

我最近执行了到 Google Cloud Platform 的迁移,我非常喜欢它. 但是,我找不到监控 Dataproc VM 实例的内存使用情况的方法.正如您在附件中看到的,控制台提供有关 CPU、磁盘和网络的利用率信息,但不提供有关内存的信息. 在不知道使用了多少内存的情况下,如何理解是否需要额外的内存? 解决方案 通过安装 GCE 虚拟机中的 Stackdriver 代理 ..