Talend - 大数据

Open Studio with Big data的标记行是"使用领先的免费开源ETL工具简化ETL和ELT for big data."在本章中,让我们看一下Talend作为处理数据的工具的用法.大数据环境.

简介

Talend Open Studio  - 大数据是一款免费的开源工具,可以非常轻松地处理大数据环境. Talend Open Studio中有大量可用的大数据组件,只需简单地拖放一些Hadoop组件即可创建和运行Hadoop作业.

此外,我们不需要写大行的MapReduce代码; Talend Open Studio大数据可帮助您使用其中的组件执行此操作.它会自动为您生成MapReduce代码,您只需要拖放组件并配置一些参数.

它还为您提供了连接Cloudera,HortonWorks等多个大数据发行版的选项. ,MapR,Amazon EMR甚至是Apache.

大数据的Talend组件

包含在大数据环境中运行作业的组件的类别列表大数据中包含的内容显示在下方和下方;

大数据

Talend Open Studio中的大数据连接器和组件列表如下所示;

  • tHDFSConnection : 用于连接到HDFS(Hadoop分布式文件系统).

  • tHDFSInput : 从给定的hdfs路径读取数据,将其放入talend模式,然后将其传递给作业中的下一个组件.

  • tHDFSList : 检索给定hdfs路径中的所有文件和文件夹.

  • tHDFSPut : 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的hdfs.

  • tHDFSGet : 将文件/文件夹从hdfs复制到给定路径的本地文件系统(用户定义).

  • tHDFSDelete : 从HDFS删除文件

  • tHDFSExist : 检查HDFS上是否存在文件.

  • tHDFSOutput : 在HDFS上写入数据流.

  • tCassandraConnection : 打开与Cassandra服务器的连接.

  • tCassandraRow : 在指定的数据库上运行CQL(Cassandra查询语言)查询.

  • tHBaseConnection : 打开与HBase数据库的连接.

  • tHBaseInput : 从HBase数据库中读取数据.

  • tHiveConnection : 打开与Hive数据库的连接.

  • tHiveCreateTable : 在配置单元数据库中创建一个表.

  • tHiveInput : 从蜂巢数据库中读取数据.

  • tHiveLoad : 将数据写入hive表或指定目录.

  • tHiveRow : 在指定的数据库上运行HiveQL查询.

  • tPigLoad : 将输入数据加载到输出流.

  • tPigMap : 用于转换和处理生猪过程中的数据.

  • tPigJoin : 根据连接键执行2个文件的连接操作.

  • tPigCoGroup : 对来自多个输入的数据进行分组和汇总.

  • tPigSort : 根据一个或多个定义的排序键对给定数据进行排序.

  • tPigStoreResult : 将猪的操作结果存储在指定的存储空间.

  • tPigFilterRow : 过滤指定的列,以便根据给定的条件拆分数据.

  • tPigDistinct : 从关系中删除重复的元组.

  • tSqoopImport : 将数据从MySQL,Oracle DB等关系数据库传输到HDFS.

  • tSqoopExport : 将数据从HDFS传输到关系数据库,如MySQL,Oracle DB