data-integration相关内容

Apache Kafka 与 Apache Storm

Apache Kafka:分布式消息系统 Apache Storm:实时消息处理 我们如何在实时数据管道中使用这两种技术来处理事件数据? 就实时数据管道而言,在我看来两者的工作完全相同.我们如何在数据管道上使用这两种技术? 解决方案 您将 Apache Kafka 用作一个分布式且健壮的队列,它可以处理大量数据并使您能够将消息从一个端点传递到另一个端点. Storm 不 ..
发布时间:2021-11-14 23:35:46 其他开发

Apache Nifi/Cassandra - 如何将 CSV 加载到 Cassandra 表中

我每天多次收到各种 CSV 文件,存储来自传感器的时间序列数据,传感器是传感器站的一部分.每个 CSV 都以其来自的传感器站和传感器 ID 命名,例如“station1_sensor2.csv".目前,数据是这样存储的: >cat station1_sensor2.csv2016-05-04 03:02:01.001000+0000;0;2016-05-04 03:02:01.002000+00 ..
发布时间:2021-11-12 03:53:23 其他开发

在Kafka中设计生产者和消费者的组件

我使用 Kafka 和 Zookeeper 作为数据管道的主要组件,每秒处理数千个请求.我使用 Samza 作为实时数据处理工具,用于我需要对数据进行的小型转换. 我的问题是我的一个消费者(比如 ConsumerA)消费了来自 Kafka 的几个主题并处理它们.基本上创建一个被消化的主题的摘要.我还想将此数据作为单独的主题推送到 Kafka,但这会在 Kafka 和我的组件上形成一个循环. ..

Apache Kafka 与 Apache Storm

Apache Kafka:分布式消息系统 Apache Storm:实时消息处理 我们如何在实时数据管道中使用这两种技术来处理事件数据? 就实时数据管道而言,在我看来两者的工作完全相同.我们如何在数据管道上使用这两种技术? 解决方案 您将 Apache Kafka 用作一个分布式且健壮的队列,它可以处理大量数据并使您能够将消息从一个端点传递到另一个端点. Storm 不 ..
发布时间:2021-11-12 02:06:45 其他开发

Pentaho 数据集成 从 DB 导入大型数据集

我正在尝试将大量数据从一个数据库导入到另一个数据库(MSSQL 到 MySQL).转换执行以下操作:获取数据的子集,通过检查哈希来检查它是更新还是插入,映射数据并使用 API 调用将其插入到 MySQL 数据库中.目前的子集部分是严格手动的,有没有办法设置 Pentaho 为我做,有点迭代.我用来获取子集的查询是 选择 t1.*从 (select *, ROW_NUMBER() as RowNu ..
发布时间:2021-06-15 18:51:01 其他开发

在哪里下载 sun.jdbc.odbc.JdbcOdbcDriver(尝试将输出 csv 从 Spoon 连接到 SSMS)

我有一个已在 Kettle/Spoon/PDI 中转换的 csv,我正在尝试将其输出到 SSMS. 在 Spoon 中,这是一个两步过程:读取 csv(并编辑几个类型),然后输出到 SQL. 我收到此错误:“找不到驱动程序类‘sun.jdbc.odbc.JdbcOdbcDriver’,请确保已安装‘MS SQL Server’驱动程序(jar 文件).sun.jdbc.odbc.Jdb ..
发布时间:2021-06-15 18:50:37 其他开发

Talend和Apache Spark?

我对Talend和Apache Spark在大数据生态系统中的适合位置感到困惑,因为Apache Spark和Talend都可以用于ETL. 有人可以举例说明吗? 解决方案 Talend是一种基于工具的大数据方法,并支持带有内置组件的所有大数据应用程序.火花是代码基础方法,您需要编写用例代码. ..
发布时间:2021-04-08 19:59:39 其他开发

塔伦德的亲子关系

面临的问题以及如何在塔伦德实现亲子关系的想法. 问题陈述: 具有一个提要文件,该提要文件具有以下格式的数据 MemberCode|LastName|FirstName A|SHINE|MICHAEL B|SHINE|MICHELLE C|SHINE|ERIN A|RODRIGUEZ|DAMIAN A|PAVELSKY|STEPHEN B|PAVELSKY| ..
发布时间:2020-07-07 20:14:09 其他开发

SAS中的Blob字段被截断

我一直在从事SAS作业,该作业从SQL Server提取表,然后将该表加载到Oracle表。 SQL中的其中一个字段服务器是blob,它们可以大到1G。当我在oracle表上运行此blob似乎被截断时,我收到了长度警告,结果文件损坏了。 我已经看到SAS指出字符变量可以最高为32K,但SAS还声明它可以访问高达2G的Blob。 我们如何实现? proc sql; 创建视 ..
发布时间:2020-06-11 02:06:34 其他开发

计算每个文件的行数以及Talend中的文件名

我建立了一个从文件中读取数据的作业,并基于特定列的唯一数据将数据集拆分为多个文件。 我可以通过以下工作来满足要求: 现在从这项将输出分成多个文件的工作中,我想要添加一个子工作,该工作将给我两列。 第一列是我要在主作业中创建的文件的名称,第二列是每个创建的输出文件具有的行数。 为达到此目的,我使用了tflowmeter并捕获了计数结果,我使用了tFlowmeterCatche ..
发布时间:2020-06-11 02:06:31 其他开发

如何使用第三方API发出请求并定期将结果加载到Google BigQuery?我应该使用哪些Google服务?

我需要从第三方API获取数据并将其提取到Google BigQuery中。也许,我需要通过Google服务自动执行此过程以定期执行此操作。 我正在尝试使用Cloud Functions,但需要一个触发器。我还阅读了有关App Engine的信息,但我认为它不仅仅适用于发出拉取请求的一种功能。 另一个疑问是:我需要将数据加载到云存储中还是可以直接将其加载到BigQuery?我应该使用Da ..

Apache Nifi / Cassandra-如何将CSV加载到Cassandra表中

我每天要收到几次不同的CSV文件,它们存储来自传感器的时间序列数据,这些传感器是传感器站的一部分。每个CSV均以其来自的传感器站和传感器ID命名,例如“ station1_sensor2.csv”。目前,数据的存储方式如下: > cat station1_sensor2.csv 2016-05-04 03:02:01.001000 + 0000; 0; 2016-05-04 03:0 ..
发布时间:2020-06-11 02:06:27 其他开发

无法使用PDI步骤连接到HDFS

我已经从 Windows 8 系统在 Ubuntu 14.04 VM 中成功配置了 Hadoop 2.4 。 Hadoop安装工作完全正常,我也可以从Windows浏览器查看Namenode。所附图片如下: 因此,我的主机名是:ubuntu和hdfs端口:9000(如果我输入错了,请更正我)。 Core-site.xml: fs.def ..
发布时间:2020-06-11 02:06:23 其他开发

在使用“ Insert / Update”时,数据加载很慢。踏入五角大楼

在pentaho 4.4.0中使用“插入/更新”步骤时,数据加载缓慢。 我正在使用pentaho 4.4.0。在水壶中使用“插入/更新”步骤时,与mysql相比,数据加载的速度太慢。此步骤将在插入之前扫描表中的整个记录​​。如果记录存在,它将进行更新。因此,在执行“插入/更新”时应执行哪些操作以优化性能。并且处理速度为4 r / s,所以我的记录总计将超过10万……。该过程需要2个半小时才能 ..
发布时间:2020-06-11 02:06:21 其他开发

Apache Kafka对比Apache Storm

Apache Kafka:分布式消息传递系统 Apache Storm:实时消息处理 我们如何实时使用这两种技术数据管道来处理事件数据? 就实时数据管道而言,在我看来两者都做得一样。我们如何在数据管道上同时使用这两种技术? 解决方案 您将Apache Kafka用作可处理的分布式且健壮的队列高容量数据,使您能够将消息从一个端点传递到另一个端点。 风暴不是一个队列。这 ..
发布时间:2020-06-11 02:06:18 其他开发

将Talend ETL作业公开为Web服务

我目前正在评估Talend ETL(用于数据集成的Talend Open Studio)。 我想知道如何/是否可以将ETL Job公开为Web服务。 我知道我可以将作业导出为Web服务,并通过特定的URL调用它们,但是,我的目标是能够使用IN / OUT参数公开特定的WSDL。 一个示例用例为: 1)在Talend ETL中调用WS并通过XML传递数据 2)Talen ..
发布时间:2020-06-11 02:06:16 其他开发

在Kafka中设计生产者和消费者的组件

我正在使用Kafka和Zookeeper作为我的数据管道的主要组件,该管道每秒处理数千个请求.我正在使用Samza作为实时数据处理工具来进行我需要对数据进行的小转换. 我的问题是我的一个使用者(让我们说ConsumerA)消耗了Kafka中的多个主题并对其进行处理.基本上创建摘要的摘要.我还想将这些数据作为一个单独的主题推送到Kafka,但这在Kafka和我的组件上形成了一个循环. 这 ..

连接一组点以获得非自相交的非凸多边形

我有一组无序的2D点,它们代表建筑物的各个角落.我需要连接它们以获得建筑物的轮廓. 这些点是通过组合不同个人收集的不同多边形而获得的.我的想法是使用这些多边形按顺序获取点(例如,获取最大和最小多边形之间的区域并连接点,使其进入该区域). 我尝试使用最小距离标准,并且还基于角度连接点.但不幸的是,它不起作用.我有用的一件事是点顺序正确的许多多边形的原始数据.那么有可能与这些多边形进行比较 ..

Pentaho Kettle-动态获取文件名

希望此消息对大家都有益! 我在Pentaho PDI Tool上遇到了问题,我正在寻找答案(或者至少在山洞尽头有一个灯)来解决问题! 我每个月都必须导入一堆xls的,不同客户的文件.每个文件都有一个不同的名称(女巫的名字是偶然的),并且这些文件位于以客户端名称命名的文件夹中.但是,我对所有客户和情况都使用相同的过程. 是否有一种方法可以将目录名称作为变量传递,并在每个进程中更改此 ..
发布时间:2020-04-25 11:47:49 其他开发