google-hadoop相关内容
..
..
..
我正在尝试将 Hadoop 集群中的现有数据 (JSON) 迁移到 Google Cloud Storage. 我已经探索了 GSUtil,它似乎是将大数据集移动到 GCS 的推荐选项.似乎它可以处理庞大的数据集.GSUtil 好像只能从本地机器移动数据到 GCS 或 S3GCS,但是不能从本地 Hadoop 集群移动数据. 将数据从本地 Hadoop 集群移动到 GCS 的推荐方法是
..
我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理. 我意识到 BigQuery 支持 Hadoop 输入/输出格式 https://cloud.google.com/hadoop/writing-with-bigquery-connector 和 pyspark 应该能够使用这个接口来通过使用“newAPIHad
..
我正在运行 Spark 作业(版本 1.2.0),输入是 Google Clous Storage 存储桶中的文件夹(即 gs://mybucket/folder) 在我的 Mac 机器上本地运行作业时,我收到以下错误: 5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败,错误:无
..
我想将数据从flume-ng写入Google Cloud Storage. 这有点复杂,因为我观察到了非常奇怪的行为.让我解释一下: 简介 我已经在Google Cloud上启动了一次hadoop集群(一键设置),以使用存储桶. 当我在主服务器上SSH并使用hdfs命令添加文件时,我可以立即在存储桶中看到它 $ hadoop fs -ls / 14/11/27 15:01:
..
使用 BigQuery连接器从BigQuery I读取数据时发现它首先将所有数据复制到Google Cloud Storage.然后将这些数据并行读取到Spark中,但是在读取大表时,在复制数据阶段会花费很长时间.那么,有没有更有效的方式将数据从BigQuery读取到Spark中? 另一个问题:从BigQuery读取包含2个阶段(复制到GCS,从GCS并行读取).复制阶段是否受Spark集群
..
使用SparkR,我正在尝试PoC收集我从包含大约4M行的文本文件中创建的RDD. 我的Spark集群在Google Cloud中运行,已部署bdutil,它由1个主服务器和2个工作器组成,具有15gb的RAM和4个内核.我的HDFS存储库基于带有gcs-connector 1.4.0的Google存储. 每台机器上都安装了SparkR,基本测试正在处理小型文件. 这是我使用的脚本:
..
我正在做一个scala Spark作业,该作业需要使用Java库(youtube/vitess),该库依赖于当前提供的GRPC(1.01),Guava(19.0)和Protobuf(3.0.0)的较新版本. DataProc 1.1映像. 在本地运行项目并使用maven进行构建时,将加载这些依赖项的正确版本,作业将无问题运行.将作业提交给DataProc时,首选这些库的DataProc版本,
..
在我的机器上,我已经配置了hadoop core-site.xml以识别gs://方案,并添加了gcs-connector-1.2.8.jar作为Hadoop库.我可以运行hadoop fs -ls gs://mybucket/并获得预期的结果.但是,如果我尝试使用以下方法从Java中进行模拟: Configuration conf = new Configuration(); FileSy
..
我试图使用Google的Hadoop Cloud Storage Connector在Hadoop上运行Oryx: https://cloud.google.com/hadoop/google-cloud-storage-connector 我更喜欢使用Hadoop 2.4.1与Oryx,所以我使用hadoop2_env.sh设置为我在google计算引擎上创建的hadoop集群,例如:
..
我正在运行Spark作业(版本1.2.0),输入是Google Clous存储桶内的文件夹(即gs:// mybucket /文件夹) 当我的Mac机在本地运行作业时,出现以下错误: 5932 [main] ERROR com.doit .customer.dataconverter.Phase1 - 作业日期:2014_09_23失败,出现错误:No FileSystem for s
..
我试图将Google Cloud VM上运行的Hadoop连接到Google云端存储。我有: 修改core-site.xml以包含fs.gs.impl和 的属性fs.AbstractFileSystem。 gs.impl 在生成的hadoop-env.sh中下载并引用 gcs-connector-latest-hadoop2.jar 使用我的个人帐户 (而不是服务帐户)通过gclo
..
我试图在Google Compute引擎上运行Hadoop作业,以对抗我们在Google云端存储上的压缩数据。 在尝试通过SequenceFileInputFormat读取数据时,出现以下异常: hadoop @ hadoop -m:/ home / salikeeno $ hadoop jar $ {JAR} $ {PROJECT} $ {OUTPUT_TABLE} 14/08/2
..
我尝试将我的Hadoop集群中的现有数据(JSON)迁移到Google Cloud Storage。 我已经探索过GSUtil,它似乎是推荐的选项将大数据集迁移到GCS。它似乎可以处理巨大的数据集。似乎尽管GSUtil只能将数据从本地机器移动到GCS或S3 GCS,但是不能从本地Hadoop群集移动数据。 将数据从本地Hadoop集群迁移到GCS的推荐方式是什么?如果使用GSUtil,
..
通过bdutil,我能找到tar文件的最新版本是1.3.1火花: GS://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能,我想用。任何机会星火1.4图像可供bdutil,或任何解决方法吗? 更新: 继安格斯·戴维斯建议,我下载并指出火花1.4.1彬hadoop2.6.tgz,部署进展顺利;但是,调用SqlContex
..
我使用的谷歌云存储连接器(而不是一个HDFS谷歌Compute Engine的集群上星火,为的推荐),并获得了大量的”限速“的错误,如下: java.io.IOException异常:错误插入:斗:*****,对象:***** 在com.google.cloud.hadoop.gcsio.GoogleCloudStorageImpl.wrapException(GoogleCloudSto
..
原来的问题是试图在谷歌云中部署火花1.4 。下载并设置完成后 SPARK_HADOOP2_TARBALL_URI ='GS://my_bucket/my-images/spark-1.4.1-bin-hadoop2.6.tgz“ 部署与bdutil很好;然而,试图调用SqlContext.parquetFile(“GS://my_bucket/some_data.parquet”)时,它运
..
我已经存入的BigQuery桌的大型数据集,我希望将其加载到pypark RDD为ETL数据处理。 我意识到,BigQuery的支持Hadoop的输入/输出格式为: https://cloud.google.com/hadoop/writing-with- BigQuery的连接器 和pyspark应能,以便通过使用该方法“newAPIHadoopRDD”创建一个RDD使用这个接口。 ht
..