如何从Google Cloud Data Fusion内部输出写入单个CSV文件 [英] How to output write to a single CSV file from inside Google Cloud Data Fusion

查看:31
本文介绍了如何从Google Cloud Data Fusion内部输出写入单个CSV文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在通过Google Cloud Data Fusion运行一个ETL管道。管道操作的快速摘要:

  1. 接收CSV文件,该文件是名称列表
  2. 从BigQuery-public-data获取表
  3. 将两者连接在一起,然后将结果输出到表
  4. 还将结果输出到Group by,其中IS合并重复项并对其分数求和。
  5. 将生成的作者姓名和分数列表输出到Google云存储存储桶中的表和CSV文件。

所有这些都应该正常工作,这两个表显示的数据正确,并且可以查询。

但是,Group by的csv输出将作为37个不同的部分输出到gcs存储桶中,每个部分都使用默认命名系统(";part-r-00000";to";part-r-00036";)命名。它们确实以CSV格式显示(文本/CSV和应用程序/CSV都已生成可用的CSV文件。

我希望输出作为具有给定名称(Author_rankings.csv)的单个CSV文件导出到GCS存储桶文件夹中。下面我附上了管道的屏幕截图和一些输出的图像。如果我能提供任何其他信息,请告诉我。

感谢您的见解。

Data Fusion pipeline

Current Output as many files

rdd

您可以在推荐答案输出接收器创建1个分区之前,从集线器使用rdd重新分区程序插件。这一个分区将被写入单个文件。有关详细信息,请查看插件的"文档"选项卡。

谢谢并致以问候

萨加尔

这篇关于如何从Google Cloud Data Fusion内部输出写入单个CSV文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆