named-entity-extraction相关内容

自定义命名实体提取

我正在尝试使用Stanford NLP实现NER(命名实体提取)。 最终目标是将自由文本转换为查询格式。 我创建了一个定制词典,能够提取实体并构建查询 people who are from newyork 我将构建查询 select * from people where region = 'newyork' 但当声明被否定时,问题就出现了 非纽约人 如 ..
发布时间:2022-07-18 15:14:03 其他开发

姓名提取 - 简历/简历 - 斯坦福 NER/OpenNLP

我目前正在进行一个学习项目,从他们的简历/简历中提取个人姓名. 目前我正在与 Stanford-NER 和 OpenNLP 合作,这两家公司都在开箱即用方面取得了一定程度的成功,倾向于在“非西方"类型名称上挣扎(无意冒犯任何人). 我的问题是 - 鉴于在简历/简历中普遍缺乏与个人姓名相关的句子结构或上下文,我是否有可能通过创建类似于简历语料库的内容来显着改善姓名识别? > 我最初的 ..

如何执行实体链接到本地​​知识图?

我正在使用在线文章从头开始构建自己的知识库. 我正在尝试将我抓取的 SPO 三元组(主题和可能的对象)中的实体映射到我自己的实体记录,这些实体由我从其他网站抓取的上市公司组成. 我研究了大部分库,该方法侧重于将实体映射到维基百科、YAGO 等大型知识库,但我不确定如何将这些技术应用于我自己的知识库. 目前,我发现 NEL Python 包声称可以这样做,但我不太了解文档,它只关注 ..

如何使用DBPedia从内容中提取标签/关键字?

我正在探索如何使用Wikipedia的分类信息从内容中提取标签/关键字。 我找到了有关DBPedia的文章。 DBpedia是社区的一项工作,旨在从Wikipedia中提取结构化信息,并使该信息在Web上可用。 有人使用过他们的Web服务吗?您知道它们的工作原理和可靠性吗? 解决方案 DBpedia 优质资源。但是,为了将您的内容转变为一组相关的DBpedia概念,您将需要在文 ..
发布时间:2020-10-19 03:02:12 其他开发

具有少量数据集(语料库)的命名实体识别

我想开发一种波斯语命名实体识别系统,但我们有一个带有NER标签的小型语料库,用于训练ans测试。也许将来我们会有更好更好的语料库。 顺便说一句,我需要一种解决方案,只要添加新数据而无需将新数据与旧数据合并并从头进行培训,就可以逐渐获得更好的性能。 有什么解决方案吗? 解决方案 是。在您的帮助下:这是一项正在进行的工作。这是JS,“没有训练...” 请参阅 https://git ..

您如何找到文本所涉及的Wikidata(或Freebase或DBpedia)主题列表?

我正在寻找一种解决方案来提取文本(或html)文档所涉及的概念列表.我希望这些概念成为wikidata主题(或freebase或DBpedia). 例如," Bad是Mikael Jackson的歌曲"应返回Michael Jackson(艺术家,Wikidata Q2831)和Bad(歌曲,Wikidata Q275422).如本例所示,该系统应能够应对拼写错误(Mikael)和歧义性(B ..

使用Stanford NLP训练n-gram NER

最近,我一直在尝试使用Stanford Core NLP训练n-gram实体.我遵循了以下教程- http://nlp.stanford.edu/software/crf-faq.shtml#b 有了这个,我只能指定unigram标记及其所属的类.谁能引导我通过,以便将其扩展为n-gram.我正在尝试从聊天数据集中提取已知的实体,例如电影名称. 如果我误解了斯坦福教程,并且可以将其用于 ..

名称提取-简历/简历-斯坦福大学NER/OpenNLP

我目前正在一个学习项目中,用于从其简历/简历中提取个人姓名. 目前,我正在与Stanford-NER和OpenNLP一起工作,它们在开箱即用的情况下都取得了一定程度的成功,并且倾向于使用“非西方"类型的名称(对任何人都没有冒犯的意图). 我的问题是-鉴于简历/简历中普遍缺乏与个人姓名相关的句子结构或上下文,通过创建类似于简历语料库的东西,我是否可能在姓名识别方面获得显着改善? 我最初 ..

从文本中提取位置的方法?

从自由文本中提取位置的推荐方法有哪些? 我能想到的是使用正则表达式规则,例如“位置中的单词".但是有没有比这更好的方法了? 我还可以考虑使用具有国家和城市名称的查找哈希表,然后将文本中提取的每个令牌与哈希表的令牌进行比较. 有人知道更好的方法吗? 编辑:我正在尝试从推文文本中提取位置.因此,发推数过多的问题也可能会影响我对方法的选择. 解决方案 所有基于规则的方法都 ..

如何在Lucene中进行实体提取

我正在尝试在Lucene中进行实体提取(更像匹配).这是一个示例工作流程: 给出一些文本(从URL)并列出人的名字,尝试从文本中提取人的名字. 注意: 人名不完全 归一化.例如有些是X先生,太太. Y和一些只是John Doe,X和Y. 要考虑的其他前缀和后缀 大约是Jr.,Sr.,Dr.,I,II ... 等等.(不要让我开始使用非 美国名称). 我正在使用Lucene ..
发布时间:2020-05-04 07:40:39 其他开发

快速算法来提取成千上万的简单的模式出了大量的文字

我希望能够匹配高效数千正则表达式的出文本得知GB的大多数,这些正则表达式将是相当简单的,如: \ bBarack \ S(侯赛因\ S)?奥巴马\ b \ B(约翰|百灵\)\ sBoehner \ b 等。 我目前的想法是尝试提取出每个正则表达式的某种最长子的,然后用阿霍Corasick来匹配这些子和消除大部分的正则表达式,然后匹配所有剩余的正则表达式相结合。谁能想到更好的东西? ..
发布时间:2015-11-30 15:22:40 C/C++