data-quality相关内容

使用 Soundex、Jaro Winkler 和 Edit Distance (UTL_MATCH) 匹配 Oracle 重复列值

我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录.数据存在一些严重的数据质量问题,我也在努力解决这些问题,但在获得批准之前,我一直坚持使用现有数据. 我可用的表格列是: SURNAME VARCHAR2(43)FORENAME VARCHAR2(38)BIRTH_DATE 日期ADDRESS_LINE1 VARCHAR2(60)ADDRESS_LINE2 VARCHAR2(60)A ..
发布时间:2021-12-24 16:28:15 数据库

使用Soundex,Jaro Winkler和Edit Distance(UTL_MATCH)匹配Oracle复制列值

我正在尝试找到一种可靠的方法来匹配数据库中重复的人员记录.数据存在一些严重的数据质量问题,我也正在尝试解决这些问题,但是在我不得不批准之前,我一直牢牢掌握着已有的数据. 我可以使用的表格列是: SURNAME VARCHAR2(43) FORENAME VARCHAR2(38) BIRTH_DATE DATE ADDRESS_LINE1 VARCHAR2(6 ..
发布时间:2020-05-22 00:09:50 数据库

在输出中应该过滤的Unicode字符列表?

最近,由于浏览器支持的数据质量,我遇到了一个错误,我正在寻找一个安全的规则来应用不需要双倍大小的字符串转义。 UTF-8字节序列“E2-80-A8”(U + 2028,LINE SEPARATOR)是Unicode数据库中完全有效的字符。但是,该顺序代表一个行分隔符(是的,然后是“0A”)。 很糟糕的是,很多浏览器(包括Chrome,Firefox和Safari; '测试其他人),无法 ..
发布时间:2017-08-28 23:03:38 开发方法

用于匹配名称/地址数据的工具

这是一个有趣的问题。 我有一个oracle数据库,名称为&地址信息需要保持当前状态。 我们从多个不同的政府来源获取数据源,需要找出匹配,以及是否使用数据更新数据库,或者需要创建新记录。 没有任何类型的唯一标识符可用于将记录绑定在一起,数据质量并不总是那么好 - 总会有打字错误,使用不同名称的人(即乔和约瑟夫)等。 我会有兴趣从任何在这种类型的问题上工作的人听到他们如何解决这 ..
发布时间:2017-07-20 23:13:36 其他开发

什么软件可用于数据质量检查

我正在寻找一些可能的软件选项,允许自定义规则操纵批量数据文件(.csv)例如,正确的大小写(允许状态保持资本和唯一姓氏),识别字数字段中的特定字词以及一些其他自定义规则。 解决方案 您可以使用Talend Open Studio执行此任务。它是用于数据操作和集成的Opensource ETL工具。你可以例如ImportCSV >> DATABASE >>执行转换>> ExportCSV。可 ..
发布时间:2017-02-24 22:21:17 Office