google-hadoop相关内容

将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage

我正在尝试将 Hadoop 集群中的现有数据 (JSON) 迁移到 Google Cloud Storage. 我已经探索了 GSUtil,它似乎是将大数据集移动到 GCS 的推荐选项.似乎它可以处理庞大的数据集.GSUtil 好像只能从本地机器移动数据到 GCS 或 S3GCS,但是不能从本地 Hadoop 集群移动数据. 将数据从本地 Hadoop 集群移动到 GCS 的推荐方法是 ..
发布时间:2022-01-01 19:49:41 其他开发

通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad ..

使用水槽写入Google Cloud Storage上的HDFS/GS所需的最少设置是什么?

我想将数据从flume-ng写入Google Cloud Storage. 这有点复杂,因为我观察到了非常奇怪的行为.让我解释一下: 简介 我已经在Google Cloud上启动了一次hadoop集群(一键设置),以使用存储桶. 当我在主服务器上SSH并使用hdfs命令添加文件时,我可以立即在存储桶中看到它 $ hadoop fs -ls / 14/11/27 15:01: ..

以有效的方式将BigQuery读入Spark吗?

使用 BigQuery连接器从BigQuery I读取数据时发现它首先将所有数据复制到Google Cloud Storage.然后将这些数据并行读取到Spark中,但是在读取大表时,在复制数据阶段会花费很长时间.那么,有没有更有效的方式将数据从BigQuery读取到Spark中? 另一个问题:从BigQuery读取包含2个阶段(复制到GCS,从GCS并行读取).复制阶段是否受Spark集群 ..

SparkR收集方法因Java堆空间上的OutOfMemory而崩溃

使用SparkR,我正在尝试PoC收集我从包含大约4M行的文本文件中创建的RDD. 我的Spark集群在Google Cloud中运行,已部署bdutil,它由1个主服务器和2个工作器组成,具有15gb的RAM和4个内核.我的HDFS存储库基于带有gcs-connector 1.4.0的Google存储. 每台机器上都安装了SparkR,基本测试正在处理小型文件. 这是我使用的脚本: ..
发布时间:2020-07-23 03:10:22 其他开发

如何管理冲突的DataProc Guava,Protobuf和GRPC依赖项

我正在做一个scala Spark作业,该作业需要使用Java库(youtube/vitess),该库依赖于当前提供的GRPC(1.01),Guava(19.0)和Protobuf(3.0.0)的较新版本. DataProc 1.1映像. 在本地运行项目并使用maven进行构建时,将加载这些依赖项的正确版本,作业将无问题运行.将作业提交给DataProc时,首选这些库的DataProc版本, ..

“No Filesystem for Scheme:gs”当本地运行火花作业时

我正在运行Spark作业(版本1.2.0),输入是Google Clous存储桶内的文件夹(即gs:// mybucket /文件夹) 当我的Mac机在本地运行作业时,出现以下错误: 5932 [main] ERROR com.doit .customer.dataconverter.Phase1 - 作业日期:2014_09_23失败,出现错误:No FileSystem for s ..

将本地Hadoop集群中的50TB数据迁移到Google云端存储

我尝试将我的Hadoop集群中的现有数据(JSON)迁移到Google Cloud Storage。 我已经探索过GSUtil,它似乎是推荐的选项将大数据集迁移到GCS。它似乎可以处理巨大的数据集。似乎尽管GSUtil只能将数据从本地机器移动到GCS或S3 GCS,但是不能从本地Hadoop群集移动数据。 将数据从本地Hadoop集群迁移到GCS的推荐方式是什么?如果使用GSUtil, ..
发布时间:2018-05-03 14:17:44 其他开发

星火1.4图像谷歌云?

通过bdutil,我能找到tar文件的最新版本是1.3.1火花: GS://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能,我想用。任何机会星火1.4图像可供bdutil,或任何解决方法吗? 更新: 继安格斯·戴维斯建议,我下载并指出火花1.4.1彬hadoop2.6.tgz,部署进展顺利;但是,调用SqlContex ..
发布时间:2016-05-22 16:46:40 其他开发

通过Hadoop的输入格式例如BigQuery的连接器,用于pyspark

我已经存入的BigQuery桌的大型数据集,我希望将其加载到pypark RDD为ETL数据处理。 我意识到,BigQuery的支持Hadoop的输入/输出格式为: https://cloud.google.com/hadoop/writing-with- BigQuery的连接器 和pyspark应能,以便通过使用该方法“newAPIHadoopRDD”创建一个RDD使用这个接口。 ht ..