google-hadoop - IT屋-程序员软件开发技术分享社区

Apache Spark GCS 连接器的速率限制

..

发布时间：2022-01-25 20:36:19 apache-spark google-cloud-storage google-cloud-platform pyspark google-hadoop 其他开发

Hadoop 无法连接到 Google Cloud Storage

..

发布时间：2022-01-25 20:17:39 google-app-engine hadoop google-cloud-storage google-hadoop 其他开发

“方案没有文件系统:gs"在本地运行火花作业时

..

发布时间：2022-01-25 19:40:40 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 其他开发

将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage

我正在尝试将 Hadoop 集群中的现有数据 (JSON) 迁移到 Google Cloud Storage. 我已经探索了 GSUtil，它似乎是将大数据集移动到 GCS 的推荐选项.似乎它可以处理庞大的数据集.GSUtil 好像只能从本地机器移动数据到 GCS 或 S3GCS，但是不能从本地 Hadoop 集群移动数据. 将数据从本地 Hadoop 集群移动到 GCS 的推荐方法是 ..

发布时间：2022-01-01 19:49:41 google-api google-api-java-client google-hadoop 其他开发

通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

我有一个存储在 BigQuery 表中的大型数据集，我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad ..

发布时间：2021-12-30 23:00:29 apache-spark google-bigquery pyspark google-hadoop google-cloud-dataproc 其他开发

“Scheme 没有文件系统:gs"在本地运行 spark 作业时

我正在运行 Spark 作业(版本 1.2.0)，输入是 Google Clous Storage 存储桶中的文件夹(即 gs://mybucket/folder) 在我的 Mac 机器上本地运行作业时，我收到以下错误: 5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败，错误:无 ..

发布时间：2021-12-15 19:21:04 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 其他开发

使用水槽写入Google Cloud Storage上的HDFS/GS所需的最少设置是什么?

我想将数据从flume-ng写入Google Cloud Storage. 这有点复杂，因为我观察到了非常奇怪的行为.让我解释一下: 简介我已经在Google Cloud上启动了一次hadoop集群(一键设置)，以使用存储桶. 当我在主服务器上SSH并使用hdfs命令添加文件时，我可以立即在存储桶中看到它 $ hadoop fs -ls / 14/11/27 15:01: ..

发布时间：2020-07-23 03:10:27 google-app-engine google-cloud-storage flume-ng google-hadoop 其他开发

使用 BigQuery连接器从BigQuery I读取数据时发现它首先将所有数据复制到Google Cloud Storage.然后将这些数据并行读取到Spark中，但是在读取大表时，在复制数据阶段会花费很长时间.那么，有没有更有效的方式将数据从BigQuery读取到Spark中? 另一个问题:从BigQuery读取包含2个阶段(复制到GCS，从GCS并行读取).复制阶段是否受Spark集群 ..

发布时间：2020-07-23 03:10:23 apache-spark google-bigquery google-cloud-dataproc google-hadoop 其他开发

SparkR收集方法因Java堆空间上的OutOfMemory而崩溃

使用SparkR，我正在尝试PoC收集我从包含大约4M行的文本文件中创建的RDD. 我的Spark集群在Google Cloud中运行，已部署bdutil，它由1个主服务器和2个工作器组成，具有15gb的RAM和4个内核.我的HDFS存储库基于带有gcs-connector 1.4.0的Google存储. 每台机器上都安装了SparkR，基本测试正在处理小型文件. 这是我使用的脚本: ..

发布时间：2020-07-23 03:10:22 r apache-spark google-hadoop sparkr 其他开发

如何管理冲突的DataProc Guava，Protobuf和GRPC依赖项

我正在做一个scala Spark作业，该作业需要使用Java库(youtube/vitess)，该库依赖于当前提供的GRPC(1.01)，Guava(19.0)和Protobuf(3.0.0)的较新版本. DataProc 1.1映像. 在本地运行项目并使用maven进行构建时，将加载这些依赖项的正确版本，作业将无问题运行.将作业提交给DataProc时，首选这些库的DataProc版本， ..

发布时间：2020-07-23 03:09:19 apache-spark google-cloud-dataproc google-hadoop vitess 其他开发

使用hadoop FileSystem API访问Google云存储

在我的机器上，我已经配置了hadoop core-site.xml以识别gs://方案，并添加了gcs-connector-1.2.8.jar作为Hadoop库.我可以运行hadoop fs -ls gs://mybucket/并获得预期的结果.但是，如果我尝试使用以下方法从Java中进行模拟: Configuration conf = new Configuration(); FileSy ..

发布时间：2020-07-23 03:09:15 google-cloud-dataproc google-hadoop 其他开发

用于Hadoop的Hadoop 2.4.1和Google Cloud Storage连接器

我试图使用Google的Hadoop Cloud Storage Connector在Hadoop上运行Oryx： https://cloud.google.com/hadoop/google-cloud-storage-connector 我更喜欢使用Hadoop 2.4.1与Oryx，所以我使用hadoop2_env.sh设置为我在google计算引擎上创建的hadoop集群，例如： ..

发布时间：2018-05-31 20:07:07 hadoop google-compute-engine google-hadoop oryx 分布式计算/Hadoop

“No Filesystem for Scheme：gs”当本地运行火花作业时

我正在运行Spark作业（版本1.2.0），输入是Google Clous存储桶内的文件夹（即gs：// mybucket /文件夹）当我的Mac机在本地运行作业时，出现以下错误： 5932 [main] ERROR com.doit .customer.dataconverter.Phase1 - 作业日期：2014_09_23失败，出现错误：No FileSystem for s ..

发布时间：2018-05-31 20:07:00 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 分布式计算/Hadoop

Hadoop无法连接到Google云端存储

我试图将Google Cloud VM上运行的Hadoop连接到Google云端存储。我有：修改core-site.xml以包含fs.gs.impl和的属性fs.AbstractFileSystem。 gs.impl 在生成的hadoop-env.sh中下载并引用 gcs-connector-latest-hadoop2.jar 使用我的个人帐户（而不是服务帐户）通过gclo ..

发布时间：2018-05-03 19:21:58 google-app-engine hadoop google-cloud-storage google-hadoop 其他开发

如何启用Snappy / Snappy Codec over Google Compute Engine的hadoop群集

我试图在Google Compute引擎上运行Hadoop作业，以对抗我们在Google云端存储上的压缩数据。在尝试通过SequenceFileInputFormat读取数据时，出现以下异常： hadoop @ hadoop -m：/ home / salikeeno $ hadoop jar $ {JAR} $ {PROJECT} $ {OUTPUT_TABLE} 14/08/2 ..

发布时间：2018-05-03 14:35:28 google-api google-api-java-client google-compute-engine snappy google-hadoop 其他开发

将本地Hadoop集群中的50TB数据迁移到Google云端存储

我尝试将我的Hadoop集群中的现有数据（JSON）迁移到Google Cloud Storage。我已经探索过GSUtil，它似乎是推荐的选项将大数据集迁移到GCS。它似乎可以处理巨大的数据集。似乎尽管GSUtil只能将数据从本地机器移动到GCS或S3 GCS，但是不能从本地Hadoop群集移动数据。将数据从本地Hadoop集群迁移到GCS的推荐方式是什么？如果使用GSUtil， ..

发布时间：2018-05-03 14:17:44 google-api google-api-java-client google-hadoop 其他开发

星火1.4图像谷歌云？

通过bdutil，我能找到tar文件的最新版本是1.3.1火花： GS：//spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能，我想用。任何机会星火1.4图像可供bdutil，或任何解决方法吗？更新：继安格斯·戴维斯建议，我下载并指出火花1.4.1彬hadoop2.6.tgz，部署进展顺利;但是，调用SqlContex ..

发布时间：2016-05-22 16:46:40 apache-spark google-hadoop apache-spark-1.4 其他开发

限速与Apache星火GCS连接器

我使用的谷歌云存储连接器（而不是一个HDFS谷歌Compute Engine的集群上星火，为的推荐），并获得了大量的”限速“的错误，如下： java.io.IOException异常：错误插入：斗：*****，对象：***** 在com.google.cloud.hadoop.gcsio.GoogleCloudStorageImpl.wrapException（GoogleCloudSto ..

发布时间：2016-05-22 16:00:38 apache-spark google-cloud-storage google-cloud-platform pyspark google-hadoop 其他开发

GoogleHadoopFileSystem不能转换为Hadoop的系统中呢？

原来的问题是试图在谷歌云中部署火花1.4 。下载并设置完成后 SPARK_HADOOP2_TARBALL_URI ='GS：//my_bucket/my-images/spark-1.4.1-bin-hadoop2.6.tgz“ 部署与bdutil很好;然而，试图调用SqlContext.parquetFile（“GS：//my_bucket/some_data.parquet”）时，它运 ..

发布时间：2016-05-22 15:56:40 apache-spark google-hadoop 其他开发

通过Hadoop的输入格式例如BigQuery的连接器，用于pyspark

我已经存入的BigQuery桌的大型数据集，我希望将其加载到pypark RDD为ETL数据处理。我意识到，BigQuery的支持Hadoop的输入/输出格式为： https://cloud.google.com/hadoop/writing-with- BigQuery的连接器和pyspark应能，以便通过使用该方法“newAPIHadoopRDD”创建一个RDD使用这个接口。 ht ..

发布时间：2016-05-22 15:51:02 apache-spark google-bigquery pyspark google-hadoop google-cloud-dataproc 其他开发

google-hadoop相关内容