从不清楚的数据中提取数据结构的工具 [英] tool to extract data structures from unclean data

查看:239
本文介绍了从不清楚的数据中提取数据结构的工具的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在数据库领域中有非结构化的基因不洁的数据。有数据一致的常见结构



即:

 字段:

名称:值

字段集:

nombre< FieldSet>
字段,



字段(n)



nombre< table>
头(1)...头(n)
val(1)... val(n)



我想知道是否有一个工具(最好在Java中)可以提取学习/理解这些数据结构,解析文件并转换为可以运行验证检查的Map或对象?



我知道Antlr,但是了解这更适合于树结构,一个不是独立的数据(我错了这个?)



有没有人对整个问题有任何建议?

解决方案

我建议 Talend 。它是非常通用的开源数据集成工具。它是基于java。您可以使用构建工具/组件从非结构化数据源中提取数据。您还可以编写复杂的自定义java代码来执行所需的操作。



我在Talend的几个科学概念项目中使用了Talend。它对我有用很好的是,它是免费的!


I have unstructured geneally unclean data in a database field. There are common structures which are consistent in the data

namely:

field:

name:value 

fieldset: 

nombre <FieldSet>
field,
  .
  .
  .
field(n)

table

nombre <table>
head(1)... head(n)
val(1)...  val(n)
      .
      .
      .

I was wondering if there was a tool (preferably in Java) that could extract learn/understand these data structures, parse the file and convert to a Map or object which I could run validation checks on?

I am aware of Antlr but understand this is more geared towards tree construction, an not independent bits of data (am I wrong about this?)

Does anyone have any suggestions for the problem as a whole?

解决方案

I recommend Talend. It is very versatile, open source data integration tool. It is based on java. You can use build in tools/components to extract data from unstructured data sources. You can also write complex custom java code to do what you want.

I used Talend in couple of scientific proof of concept projects of mine. It worked for me. Good part is, it is free!

这篇关于从不清楚的数据中提取数据结构的工具的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆