information-extraction相关内容

如何为以数字为主的数据提取注释和训练数据

我正在尝试从非结构化文本中提取信息。例如 这位首席执行官最近征求了对正在开发的卡车增加功能的建议,他透露了一些计划中的功能,比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时,首席执行官给出了2021年第二季度的估计时间。 理想的输出应该类似于 [minRange = 400, maxRange = 500 ..

NLP 寻找实体之间的关系

我目前的理解是,可以使用 OpenNLP、Stanford NLP 等工具包从文本文档中提取实体. 但是,有没有办法找到这些实体之间的关系? 例如考虑以下文本: “你们中的一些人可能知道,我上周在欧洲高能物理实验室 CERN 度过,去年 7 月在那里发现了著名的希格斯玻色子.每次去 CERN 时,我都深有感触除了这些年来的快速访问,我在 1990 年代后期作为访问科学家在那里呆了 ..
发布时间:2022-01-02 17:45:09 其他开发

在 NLTK 中使用自定义标签训练标记器

我有一个带有标记数据的文档,格式为 嗨,这是我的 [KEYWORD 电话号码],请告诉我您何时想进行视频群聊:[PHONE 7802708523].我住在 [CITY New York] 的 [PROP_TYPE condo] .我想基于一组这些类型的标记文档来训练模型,然后使用我的模型来标记新文档.这在 NLTK 中可能吗?我看过 chunking 和 NLTK-Trainer 脚本,但这些有一 ..
发布时间:2022-01-02 17:34:19 其他开发

什么是 CoNLL 数据格式?

我是文本挖掘的新手.我正在使用一个开源 jar (Mate Parser),它在依赖解析后以 CoNLL 2009 格式为我提供输出.我想将依赖解析结果用于信息提取.但我能够理解一些输出但无法理解 CoNLL 数据格式.任何人都可以帮助我让我了解 CoNLL 数据格式吗?任何类型的指针将不胜感激. 解决方案 有很多不同的CoNLL 格式,因为 CoNLL 是每年不同的共享任务.此处描述了 ..
发布时间:2022-01-02 17:23:16 其他开发

使用 Python 解析 PDF - 提取格式化文本和纯文本

我正在寻找一个 PDF 库,它可以让我从 PDF 文档中提取文本.我看过 PyPDF,这可以很好地从 PDF 文档中提取文本.这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起提取.这可能会带来问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起). 我想从 PDF 文档中提取文本,排除任何表格和特殊格式.有没有图书馆可以做到这一点? 解决方案 你也 ..
发布时间:2021-12-14 16:01:29 Python

Apple 如何在电子邮件中查找日期、时间和地址?

在 iOS 电子邮件客户端中,当电子邮件包含日期、时间或地点时,文本将变成超链接,只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件,也适用于其他语言.我喜欢这个功能,想了解他们是如何做到的. 最简单的方法是使用许多正则表达式并将它们全部运行.但是我这不会很好地扩展并且只适用于特定的语言或日期格式等.我认为 Apple 必须使用机器学习的一些概念来提取实体(8:00PM、8PM、8 ..

使用 ANTLR 解析时忽略输入的某些部分

我正在尝试通过 ANTLR (ANTLRWorks-3.5.2) 解析语言.目标是输入完整的输入,但 Antlr 给出了语法中定义部分的解析树并忽略其余输入,例如这是我的语法: 语法尽快;项目:“/开始项目"名称模块+“/结束项目";模块 : '/begin MODULE'name '/end MODULE';姓名:身份;IDENT : ('a'..'z'|'A'..'Z')('a'..'z'| ..
发布时间:2021-11-11 03:42:44 其他开发

来自chess.com的实时统计chess960?

交叉发布的 chess se ,但是什么也没有. > lichess 和Chess.com均具有播放变体 但是,我不太喜欢这个问题,就像这样: 我如何获得通知SE是否发了我的问题?->在这里,您可能会争辩说我是在就se本身进行询问,因此应该允许它.我问过chess.com的人,但他们没有回复我,所以我在这里. 何时定价可以通过负概率或其他方法进行套利->我的意思是那个家伙是用勺子 ..

如何解析包含javascript的渲染网页

如何从渲染的网页中提取数据? Java脚本会随着时间更新数据. 是否可以编写可以从网页Java脚本访问变量的用户脚本? 请提出实现此目标的可能方法. 解决方案 这取决于您的编程语言. 在C#中,您可以使用网络浏览器控件,然后使用Webbrowser.Document属性获取浏览器控件的ObjectForScripting 属性. ..
发布时间:2020-06-26 18:52:14 其他开发

安装DBPedia抽取框架

我正尝试在 http://wiki.dbpedia.org/Documentation我已经下载了Maven二进制版本. $ mvn --version Apache Maven 3.0.4 (r1232337; 2012-01-17 16:44:56+0800) Maven home: /home/william/universe/Downloads/apache-maven-3.0.4 ..
发布时间:2020-06-26 18:52:12 Java开发

如何通过朴素贝叶斯分类器将PoS标签用作训练数据的功能?

我正在研究如何从文档中提取关键词短语. 在我的研究中,我使用了朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型.其中的一项功能是 PoS标签,我认为该功能对于指定术语是否为关键短语非常重要. 但是朴素贝叶斯(NB)分类器的输入是数字,而PoS标签是字符串. 所以我不知道将PoS标签功能表示为数字以便成为NB分类器的输入功能的方法. 请帮助我提供您的建议. 感谢和问 ..

从lm汇总系数

我有10个线性模型,其中我只需要一些信息,即:r平方,p值,斜率和截距系数.我设法提取了这些值(通过荒谬地重复代码).现在,我需要将这些值制成表格(列中的信息;行列出了线性模型1-10的结果).谁能帮帮我吗?我还有数百个线性模型要做.我确定一定有办法. 托管在此处的数据文件 代码: d ..
发布时间:2020-06-26 18:51:58 其他开发

使用Ruby从文本解析日期

我试图弄清楚如何使用Ruby从非结构化文本中提取日期. 例如,我想从此字符串中解析日期“将不考虑2010年2月1日午夜(EST)12:00之后开始的应用程序." 有什么建议吗? 解决方案 假设您只需要日期而不是日期时间: require 'date' string = "Applications started after 12:00 A.M. Midnight (EST ..
发布时间:2020-06-26 18:51:56 其他开发

有关如何评估排名,AP,MAP和召回以进行IR评估的一些想法和方向

我对如何评估信息检索结果的好坏有疑问,例如计算 相关文档的等级,召回率,精度,AP,MAP ..... 当前,一旦用户输入查询,系统便能够从数据库中检索文档.问题是我不知道如何进行评估. 我有一些公共数据集,例如"Cranfield集合" 数据集链接 它包含 1.文档2.查询3.相关性评估 DOCS QRYS SIZE* Cranfi ..

使用Python进行PDF解析-提取格式化和纯文本

我正在寻找一个PDF库,它将允许我从PDF文档中提取文本.我看过PyPDF,它可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表格,则表格中的文本将与文档中其余文本一起在线提取.这可能会引起问题,因为它会产生无用的文本部分,看起来有些乱码(例如,许多数字混在一起). 我想从PDF文档中提取文本,排除任何表格和特殊格式.那里有图书馆吗? 解决方案 您还可以查看 PDFMi ..
发布时间:2020-05-25 00:14:23 Python