google-cloud-dataproc相关内容
在GCP中,从UI或gCloud命令安装和运行JupyterHub component相当简单。我试图通过气流和DataprocClusterCreateOperator编写这个过程的脚本,这里是DAG的摘录 from airflow.contrib.operators import dataproc_operator create_cluster=dataproc_operator.
..
在本机运行Jupyter Notebook时,从保存的.py脚本导入函数和实用程序非常简单。 当我在运行在Google Cloud Platform DataProc集群上的Jupyter笔记本上工作时--(在将.py脚本上传到我的DataProc Jupyter笔记本之后--因此它在云中*)--我无法将该函数导入到(Dataproc)笔记本中。 有人知道我如何做到这一点吗?这仅仅与找
..
我尝试使用python SDK创建一个生存时间为1天的Dataproc集群。为此,Dataproc API的v1beta2引入了LifecycleConfig object,它是ClusterConfig对象的子级。 我在JSON文件中使用此对象,并将其传递给create_cluster方法。要设置特定的TTL,我使用了值为86,400秒(一天)的字段auto_delete_ttl。 Th
..
我正在尝试使用.NET电光作业提交数据过程。 命令行如下所示: gcloud dataproc jobs submit spark --cluster= --region= --class=org.apache.spark.deploy.dotnet.DotnetRunner --jars=gs://bucket
..
我正在尝试使用 PySpark (Google Dataproc) 解析大约 100 万个 HTML 文件,并将相关字段写入压缩文件.每个 HTML 文件大约 200KB.因此,所有数据约为 200GB. 如果我使用数据的子集,下面的代码可以正常工作,但运行几个小时,然后在整个数据集上运行时崩溃.此外,工作节点未使用( 我相信系统会因从 GCS 中提取数据而窒息.有一个更好的方法吗?另外,
..
..
..
我已遵循 将 BigQuery 连接器与 Spark 结合使用 从公开可用的数据集中成功获取数据.我现在需要访问一个由我们的一个客户拥有的 bigquery 数据集,我已经为其提供了一个服务帐户密钥文件(我知道服务帐户密钥文件是有效的,因为我可以使用它来使用 conf=conf) 文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/context.p
..
我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad
..
我正在尝试使用气流脚本运行云存储中存在的 hql 文件,我们可以通过两个参数将路径传递给 DataprocHiveOperator: 查询:'gs://bucketpath/filename.q' 发生错误 - 无法识别靠近 'gs' ':' '/' 的输入 query_uri :'gs://bucketpath/filename.q' 发生错误:PendingDeprec
..
我有以下文件夹结构 - 库文件夹- lib1.py- lib2.py- main.py main.py 调用 libfolder.lib1.py 然后调用 libfolder.lib2.py 和其他. 在本地机器上一切正常,但在我将其部署到 Dataproc 后,出现以下错误 文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/seria
..
我有一个通过 google dataproc 创建的 Spark 集群.我希望能够使用 databricks 中的 csv 库(参见 https://github.com/databricks/spark-csv).所以我先是这样测试的: 我与集群的主节点启动了 ssh 会话,然后输入: pyspark --packages com.databricks:spark-csv_2.11:1.
..
如何在集群启动时在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点手动安装我需要的库的麻烦. 很高兴知道这种自动化安装是否可以仅在主服务器上而不是在工作器上安装东西. 解决方案 初始化操作是最好的方法.初始化操作是在创建集群时运行的 shell 脚本.这将允许您自定义集群,例如安装 Python 库.这些脚本必须存储在 Google C
..
我试图建立一个 dataproc 集群,它一次只计算一个作业(或指定的最大作业),其余的将在队列中. 我找到了这个解决方案,如何配置垄断FIFOYARN 中的应用程序队列? ,但由于我一直在创建新集群,因此我需要将其自动化.我已将此添加到集群创建中: "softwareConfig": {“特性": {"yarn:yarn.resourcemanager.scheduler.class":
..
我在 DataProc 上有一个 Jupyter 笔记本,我需要一个 jar 来运行一些作业.我知道编辑 spark-defaults.conf 并使用 --jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar从命令行提交作业 - 它们都运行良好.但是,如果我想直接将jar添加到jupyter notebook,我尝试了以下方法,它们都失败了
..
我在运行的一些 Spark LDA 主题建模中遇到了各种问题(主要是看似随机间隔的分离错误),我认为这主要与我的执行程序上的内存分配不足有关.这似乎与有问题的自动集群配置有关.我最近的一次尝试使用 n1-standard-8 机器(8 个内核,30GB RAM)作为主节点和工作节点(6 个工作节点,所以总共 48 个内核). 但是当我查看 /etc/spark/conf/spark-defa
..
根据 Dataproc docos,它具有“与 BigQuery 的本机和自动集成". 我在 BigQuery 中有一张表.我想读取该表并使用我创建的 Dataproc 集群(使用 PySpark 作业)对其进行一些分析.然后将此分析的结果写回 BigQuery.您可能会问“为什么不直接在 BigQuery 中进行分析!?"- 原因是因为我们正在创建复杂的统计模型,而 SQL 级别太高,无法
..
我最近执行了到 Google Cloud Platform 的迁移,我非常喜欢它. 但是,我找不到监控 Dataproc VM 实例的内存使用情况的方法.正如您在附件中看到的,控制台提供有关 CPU、磁盘和网络的利用率信息,但不提供有关内存的信息. 在不知道使用了多少内存的情况下,如何理解是否需要额外的内存? 解决方案 通过安装 GCE 虚拟机中的 Stackdriver 代理
..
我正在运行 Spark 作业(版本 1.2.0),输入是 Google Clous Storage 存储桶中的文件夹(即 gs://mybucket/folder) 在我的 Mac 机器上本地运行作业时,我收到以下错误: 5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败,错误:无
..
我正在使用 maven shade 插件来构建 Uber jar,以便将其作为作业提交给 google dataproc 集群.Google 已在其集群上安装了 Apache Spark 2.0.2 Apache Hadoop 2.7.3. Apache spark 2.0.2 使用 com.google.guava 的 14.0.1 和 apache hadoop 2.7.3 使用 11.
..