data-extraction相关内容

从Excel数据库中提取数据

我有一个包含一长串名称以及与名称相关联的唯一值的数据库.我想做的是为每个人创建一个工作表,然后仅将其数据复制到工作表中的指定范围,然后继续到下一个个人,将其数据复制到工作表中,等等. 此处是示例工作表的链接(在google docs表单中,请注意-我实际上正在使用Excel 2010 ,而不是Google文档). 通过在名为"Employee"的新工作表中使用以下代码,我已经能够创建所 ..
发布时间:2020-11-01 03:21:18 其他开发

如何使用NiFi从CSV文件中提取子集

我有一个csv文件,其中包含100多个列,我只想提取特定的60列作为子集(列名+其值).我知道我们可以使用提取文本处理器. 谁能告诉我要写什么正则表达式?例如,从给定的快照中说,我只希望NiFi提取"BMS_sw_micro","BMU_Dbc_Dbg_Micro","BMU_Dbc_Fia_Micro"列,即仅提取"F,L,O"列. 非常感谢您的帮助! 解决方案 请参阅我对 ..
发布时间:2020-09-03 19:38:12 其他开发

悖论数据库文件

我发现了具有不同扩展名的悖论数据库文件. 有db文件,mb文件,dat文件,px文件,XG0文件,XG1文件,XG2文件,XG3文件,XG4文件,文件,YG1文件,YG2文件,YG3文件和YG4文件. 我已经找到使用数字电子表格打开db文件和px文件的方法.我从数据库文件中找到了一些需要的数据.但是,其余数据不在db文件中.因此,我必须打开其余文件.我找不到可以读取这些文件的软件. ..
发布时间:2020-07-02 06:27:56 其他开发

PostgreSQL到数据仓库:接近实时ETL /数据提取的最佳方法

背景: 我有一个针对OLTP进行了优化的PostgreSQL(v8.3)数据库。 我需要以半实时的方式从中提取数据(有人一定会问半实时是什么意思,而答案是我可以,但是我会很务实,因为基准测试可以说我们希望每15分钟一次),然后将其输入到数据仓库中。 多少数据?在高峰时间,我们正在谈论每分钟大约80-100k行到达OLTP端,在非高峰期,这将大大下降到15-20k。更新最频繁的行各 ..

使用Pypdf2从网页转换的pdf中提取文本

我使用chrome使用另存为pdf选项将网页转换为Pdf.现在的问题是,当我使用PyPDF2从中提取数据时,它显示为Null,而在其他pdf文件中则很容易使用.我知道我可以直接从网站中提取数据,但是我想了解为什么这是行不通的.它显示了正确的页数,但是当我提取text()时,它什么也没有显示.有谁知道这是什么问题? 该页面的链接为 https://en.wikipedia.org/wiki/Rapp ..
发布时间:2020-05-25 05:19:35 Python

机器打印文字的ICR吗?

我知道ICR主要用于手写(手工打印)数据识别,但是我们能否利用ICR来提取失真的(质量较差)的机器打印文本呢? 如果不是解决以下问题的最佳方法 我有一个非结构化文档,可能会分成两页或更多页,文档中几乎没有手写的日期字段.现在我想将其转换为文本文件. 我尝试了一些具有ICR模块转换为文本文件的整页ocr(多功能网页和abbyy等)工具. 它们擅长于整页OCR,但是当遇到手写日期时,会在其 ..
发布时间:2020-05-19 19:37:14 其他开发

ruby:从嵌套的json中提取字段

我试图自学红宝石并解决工作中的问题.我的最终目标是从API提取JSON响应中的许多字段中的三个,然后处理并转储到CSV以供执行人员报告. JSON的结构为: { "status": 200, "data": { "total": 251, "alerts": [ { "dataPoint": "x", "ackedBy ..
发布时间:2019-11-24 17:55:35 其他开发

R中的天气数据抓取与提取

我正在研究一个研究项目,被分配到做一些数据抓取和编写R代码,可以帮助从一个站点,如wunderground.com提取当前温度的特定邮政编码。现在这可能是一个抽象的问题,但没有人知道如何做到以下几点:$ b​​ $ b我可以通过这样做来提取特定邮政编码的当前温度: 临时工 ..
发布时间:2018-01-27 23:29:06 其他开发

如何从字符串中提取浮动数字

我有许多类似于 Current Level:13.4 db。的字符串,我只想提取浮点数。我说浮动,而不是小数,因为它有时是整体。 RegEx可以做到这一点,或者有更好的方法吗? 解决方案 > >>> import re >>> re.findall(“\ d + \.\d +”,“Current Level:13.4 db。”) ['13.4'] 就足够了。 ..
发布时间:2017-12-19 22:20:16 Python

VBA脚本从网站提取数据

我想从 http://www.buyshedsdirect.co.uk/ 中提取数据获取最新的具体项目的价格。 我有一个excel电子表格,具有以下内容: | A | B 1 |项目|价格 2 | bfd /花园结构/拱门/总理拱廊 和VBA脚本: Dim ie As New InternetExplorer Dim item As String ..
发布时间:2017-09-26 22:41:45 Office

从Web页面提取数据 - 使用VBA

使用VBA,我需要从网页提取数据 http:// emops。 tse.com.tw/t21/sii/t21sc03_2011_9_e.htm 我可以使用以下代码获取所有数据: With ActiveSheet.QueryTables.Add(Connection:=“URL; http://emops.tse.com.tw/t21/sii/t21sc03_2012_2_e.htm ..
发布时间:2017-09-24 20:35:21 Office

创建VBA宏以提取匹配的数据

我正在寻找如何在Excel中构建VBA宏(我从未创建过一个)的指导,它将在两个单独的excel文件中查找唯一的标识符匹配,然后提取匹配的伴随行数据。 更简单地说: 我有两个独立的excel文件,它们每个都有一列存在于其中,用于唯一的标识符。 我想让VBA宏找到其中唯一标识符与另一个文件中相同的文件之一中的匹配项。 在Excel文件中找到匹配项后,我想提取匹配所在行的数据。 ..
发布时间:2017-09-09 19:58:08 Office