information-extraction - IT屋-程序员软件开发技术分享社区

空格引用解析-命名实体识别(NER)以返回唯一实体ID？

也许我跳过了文档的一部分，但我试图确定的是标准NER工具集中每个实体的唯一ID。例如： import spacy from spacy import displacy import en_core_web_sm nlp = en_core_web_sm.load() text = "This is a text about Apple Inc based in San Fransisco. ..

发布时间：2022-05-15 14:49:48 python nlp spacy information-extraction named-entity-recognition Python

如何为以数字为主的数据提取注释和训练数据

我正在尝试从非结构化文本中提取信息。例如这位首席执行官最近征求了对正在开发的卡车增加功能的建议，他透露了一些计划中的功能，比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时，首席执行官给出了2021年第二季度的估计时间。理想的输出应该类似于 [minRange = 400, maxRange = 500 ..

发布时间：2022-04-23 10:57:11 nlp stanford-nlp spacy information-extraction named-entity-recognition 其他开发

NLP 寻找实体之间的关系

我目前的理解是，可以使用 OpenNLP、Stanford NLP 等工具包从文本文档中提取实体. 但是，有没有办法找到这些实体之间的关系? 例如考虑以下文本: “你们中的一些人可能知道，我上周在欧洲高能物理实验室 CERN 度过，去年 7 月在那里发现了著名的希格斯玻色子.每次去 CERN 时，我都深有感触除了这些年来的快速访问，我在 1990 年代后期作为访问科学家在那里呆了 ..

发布时间：2022-01-02 17:45:09 text nlp stanford-nlp opennlp information-extraction 其他开发

我有一个带有标记数据的文档，格式为嗨，这是我的 [KEYWORD 电话号码]，请告诉我您何时想进行视频群聊:[PHONE 7802708523].我住在 [CITY New York] 的 [PROP_TYPE condo] .我想基于一组这些类型的标记文档来训练模型，然后使用我的模型来标记新文档.这在 NLTK 中可能吗?我看过 chunking 和 NLTK-Trainer 脚本，但这些有一 ..

发布时间：2022-01-02 17:34:19 nlp nltk information-extraction supervised-learning 其他开发

什么是 CoNLL 数据格式?

我是文本挖掘的新手.我正在使用一个开源 jar (Mate Parser)，它在依赖解析后以 CoNLL 2009 格式为我提供输出.我想将依赖解析结果用于信息提取.但我能够理解一些输出但无法理解 CoNLL 数据格式.任何人都可以帮助我让我了解 CoNLL 数据格式吗?任何类型的指针将不胜感激. 解决方案有很多不同的CoNLL 格式，因为 CoNLL 是每年不同的共享任务.此处描述了 ..

发布时间：2022-01-02 17:23:16 nlp text-parsing text-mining information-extraction 其他开发

使用 Python 解析 PDF - 提取格式化文本和纯文本

我正在寻找一个 PDF 库，它可以让我从 PDF 文档中提取文本.我看过 PyPDF，这可以很好地从 PDF 文档中提取文本.这样做的问题是，如果文档中有表格，表格中的文本将与文档的其余部分一起提取.这可能会带来问题，因为它会生成无用且看起来乱码的文本部分(例如，大量数字混在一起). 我想从 PDF 文档中提取文本，排除任何表格和特殊格式.有没有图书馆可以做到这一点? 解决方案你也 ..

发布时间：2021-12-14 16:01:29 python pdf parsing text-extraction information-extraction Python

Apple 如何在电子邮件中查找日期、时间和地址?

在 iOS 电子邮件客户端中，当电子邮件包含日期、时间或地点时，文本将变成超链接，只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件，也适用于其他语言.我喜欢这个功能，想了解他们是如何做到的. 最简单的方法是使用许多正则表达式并将它们全部运行.但是我这不会很好地扩展并且只适用于特定的语言或日期格式等.我认为 Apple 必须使用机器学习的一些概念来提取实体(8:00PM、8PM、8 ..

发布时间：2021-12-14 09:29:37 machine-learning nlp information-extraction named-entity-recognition AI人工智能

使用 ANTLR 解析时忽略输入的某些部分

我正在尝试通过 ANTLR (ANTLRWorks-3.5.2) 解析语言.目标是输入完整的输入，但 Antlr 给出了语法中定义部分的解析树并忽略其余输入，例如这是我的语法: 语法尽快；项目:“/开始项目"名称模块+“/结束项目"；模块 : '/begin MODULE'name '/end MODULE';姓名:身份；IDENT : ('a'..'z'|'A'..'Z')('a'..'z'| ..

发布时间：2021-11-11 03:42:44 antlr antlr3 information-extraction 其他开发

来自chess.com的实时统计chess960?

交叉发布的 chess se ，但是什么也没有. > lichess 和Chess.com均具有播放变体但是，我不太喜欢这个问题，就像这样: 我如何获得通知SE是否发了我的问题?->在这里，您可能会争辩说我是在就se本身进行询问，因此应该允许它.我问过chess.com的人，但他们没有回复我，所以我在这里. 何时定价可以通过负概率或其他方法进行套利->我的意思是那个家伙是用勺子 ..

发布时间：2021-05-06 19:56:26 extract chess data-extraction information-extraction lichess 其他开发

如何将PGN中的数据转换/解析/提取为电子表格/Google表格/Excel文件?

此问题的续集:来自chess.com的实时统计chess960? 所以假设我喜欢 https://api.chess.com/pub/player/gmwso/games/2020/12 或 https://api.chess.com/pub/player/gmwso/games/2020/12/pgn 会有很多这样的东西 [UTCDate"2018.01.03" ..

发布时间：2021-05-06 19:55:56 extract chess data-extraction information-extraction lichess 其他开发

如何解析包含javascript的渲染网页

如何从渲染的网页中提取数据? Java脚本会随着时间更新数据. 是否可以编写可以从网页Java脚本访问变量的用户脚本? 请提出实现此目标的可能方法. 解决方案这取决于您的编程语言. 在C#中，您可以使用网络浏览器控件，然后使用Webbrowser.Document属性获取浏览器控件的ObjectForScripting 属性. ..

发布时间：2020-06-26 18:52:14 html-parsing userscripts information-extraction 其他开发

安装DBPedia抽取框架

我正尝试在 http://wiki.dbpedia.org/Documentation我已经下载了Maven二进制版本. $ mvn --version Apache Maven 3.0.4 (r1232337; 2012-01-17 16:44:56+0800) Maven home: /home/william/universe/Downloads/apache-maven-3.0.4 ..

发布时间：2020-06-26 18:52:12 java dbpedia information-extraction Java开发

如何通过朴素贝叶斯分类器将PoS标签用作训练数据的功能?

我正在研究如何从文档中提取关键词短语. 在我的研究中，我使用了朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型.其中的一项功能是 PoS标签，我认为该功能对于指定术语是否为关键短语非常重要. 但是朴素贝叶斯(NB)分类器的输入是数字，而PoS标签是字符串. 所以我不知道将PoS标签功能表示为数字以便成为NB分类器的输入功能的方法. 请帮助我提供您的建议. 感谢和问 ..

发布时间：2020-06-26 18:52:08 text-extraction pos-tagger information-extraction naivebayes 其他开发

使用ANTLR解析时忽略输入的某些部分

我正在尝试通过ANTLR(ANTLRWorks-3.5.2)解析语言.目的是输入完整的输入，但Antlr给出语法中已定义部分的分析树，而忽略其余输入，例如，这是我的语法: grammar asap; project : '/begin PROJECT' name module+ '/end PROJECT'; module : '/begin MODULE'name '/end M ..

发布时间：2020-06-26 18:52:04 antlr antlr3 information-extraction 其他开发

用两个相似标题之间的特定单词提取段落

我的文本文件包含类似这样的段落. summary A result oriented and dedicated professional with three years’ experience in Software Development. A proactive individual with a logical approach to challenges, performs e ..

发布时间：2020-06-26 18:52:00 python information-extraction Python

从lm汇总系数

我有10个线性模型，其中我只需要一些信息，即:r平方，p值，斜率和截距系数.我设法提取了这些值(通过荒谬地重复代码).现在，我需要将这些值制成表格(列中的信息；行列出了线性模型1-10的结果).谁能帮帮我吗?我还有数百个线性模型要做.我确定一定有办法. 托管在此处的数据文件代码: d ..

发布时间：2020-06-26 18:51:58 r extract information-extraction tabulate 其他开发

使用Ruby从文本解析日期

我试图弄清楚如何使用Ruby从非结构化文本中提取日期. 例如，我想从此字符串中解析日期“将不考虑2010年2月1日午夜(EST)12:00之后开始的应用程序." 有什么建议吗? 解决方案假设您只需要日期而不是日期时间: require 'date' string = "Applications started after 12:00 A.M. Midnight (EST ..

发布时间：2020-06-26 18:51:56 ruby text-extraction information-extraction 其他开发

有关如何评估排名，AP，MAP和召回以进行IR评估的一些想法和方向

我对如何评估信息检索结果的好坏有疑问，例如计算相关文档的等级，召回率，精度，AP，MAP ..... 当前，一旦用户输入查询，系统便能够从数据库中检索文档.问题是我不知道如何进行评估. 我有一些公共数据集，例如"Cranfield集合" 数据集链接它包含 1.文档2.查询3.相关性评估 DOCS QRYS SIZE* Cranfi ..

发布时间：2020-06-26 18:51:54 information-retrieval evaluation information-extraction 其他开发

使用Python进行PDF解析-提取格式化和纯文本

我正在寻找一个PDF库，它将允许我从PDF文档中提取文本.我看过PyPDF，它可以很好地从PDF文档中提取文本.这样做的问题是，如果文档中有表格，则表格中的文本将与文档中其余文本一起在线提取.这可能会引起问题，因为它会产生无用的文本部分，看起来有些乱码(例如，许多数字混在一起). 我想从PDF文档中提取文本，排除任何表格和特殊格式.那里有图书馆吗? 解决方案您还可以查看 PDFMi ..

发布时间：2020-05-25 00:14:23 python pdf parsing text-extraction information-extraction Python

使用Ruby/Mechanize(和Nokogiri)从HTML提取单个字符串

我正在从论坛中提取数据.我基于的脚本运行正常.现在，我需要从单个帖子中提取日期和时间(2009年12月21日，20:39).我无法正常工作.我使用FireXPath来确定xpath. 示例代码: require 'rubygems' require 'mechanize' post_agent = WWW::Mechanize.new post_page = po ..

发布时间：2020-05-25 00:13:39 ruby parsing nokogiri information-extraction 其他开发

information-extraction相关内容