stanford-nlp相关内容

自定义命名实体提取

我正在尝试使用Stanford NLP实现NER(命名实体提取)。 最终目标是将自由文本转换为查询格式。 我创建了一个定制词典,能够提取实体并构建查询 people who are from newyork 我将构建查询 select * from people where region = 'newyork' 但当声明被否定时,问题就出现了 非纽约人 如 ..
发布时间:2022-07-18 15:14:03 其他开发

斯坦福NLP工具包解析手册

在哪里可以找到Stanford NLP依赖手册?它可以在线使用吗? 推荐答案 原始手册可在此处找到:http://nlp.stanford.edu/software/dependencies_manual.pdf 解析器的一般网址为:https://nlp.stanford.edu/software/lex-parser.html 有关神经网络相关性解析器的更具体页面是:h ..
发布时间:2022-04-23 11:07:32 其他开发

如何为以数字为主的数据提取注释和训练数据

我正在尝试从非结构化文本中提取信息。例如 这位首席执行官最近征求了对正在开发的卡车增加功能的建议,他透露了一些计划中的功能,比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时,首席执行官给出了2021年第二季度的估计时间。 理想的输出应该类似于 [minRange = 400, maxRange = 500 ..

斯坦福NLP令牌Regex--无法识别NER

我只是刚刚开始使用令牌Regex。我还没有找到一本能给我所需的介绍或教程。(如果我错过了什么,我很感激链接!) 最基本的想法是我想做一些事情,比如使用 pattern: ( ( [ { ner:PERSON } ]) /was/ /born/ /on/ ([ { ner:DATE } ]) ) (出自https://nlp.stanford.edu/software/tokens ..
发布时间:2022-04-23 10:37:25 其他开发

删除POS标签器的标签

可以去掉句子中的标签吗?你可以通过扫描文件并找到标签并删除它们来实现这一点,但由于标签很多(一些型号有30+,一些型号大约有48-50,它们基本上遵循penn treebank pos tags),有没有一种快速而甜蜜的方法来更有效地删除标签? 我确实检查了API,但没有这样的方法来移除标签。 推荐答案 没有为此专门构建的内容,但由于输出既包括单词又包括其标记,我不确定为什么需要再次扫 ..
发布时间:2022-04-23 10:21:24 Java开发

Gensim列车不更新权重

我有一个特定于领域的语料库,我正在尝试为其训练嵌入。因为我想全面掌握词汇,所以我添加了glove.6B.50d.txt中的单词向量。从这里添加向量后,我正在使用我拥有的语料库训练模型。 我正在尝试here中的解决方案,但单词嵌入似乎没有更新。 这是我到目前为止拥有的解决方案。 #read glove embeddings glove_wv = KeyedVectors.load_ ..
发布时间:2022-04-23 09:49:41 Python

如何将Stanford CoreNLP库导入Android Studio

如何将Stanford Core自然语言进程库添加到Android Studio项目中 推荐答案 您可以从Maven存储库-Here 获取 或仅通过添加此应用级别build.gradle导入 compile "edu.stanford.nlp:stanford-corenlp:3.9.1" 老实说,我不会建议使用它的Android,因为它太重了 在Github上,他 ..
发布时间:2022-04-23 09:17:58 移动开发

配置SuTime以使用自定义规则文件

我正在尝试配置SUTime Annotator(“ner”的一部分)以使用我自己的日期/时间规则文件,而不是位于Stanford CoreNLP模型的分发JAR中的“Models/sutime/”中的开箱即用的规则文件。 我这样做的原因是我想稍微修改一下SUTime规则正在做的事情。 根据官方SUTime documentation,只需以逗号分隔的文件路径形式指定“sutime.ru ..
发布时间:2022-04-23 09:08:38 其他开发

Stanford CoreNLP-未知变量:工作日

我使用Stanford CoreNLP处理英语Gigaword语料库中的NYT部分。当它仍在运行时,会多次记录以下消息: Unknown variable: WEEKDAY 每次记录此消息时,内存消耗都会增加。现在大约是23.8 GB。有人知道这个问题是关于什么的吗? 我使用的是来自Github的Stanford CoreNLP 3.6.0,提交ID4fd28dc4848616e56 ..
发布时间:2022-04-23 09:00:44 Java开发

用Python语言从句子中提取三元组

我正在尝试使用Python中的Stanford依存关系解析器从给定的句子中提取三元组(主语-谓语-宾语)。有人能帮我解决这个问题吗? 提前谢谢 推荐答案 有关从句子中提取三元组的信息,请参阅以下链接。 https://github.com/tdpetrou/RDF-Triple-API http://nlp.stanford.edu/software/openie.htm ..
发布时间:2022-04-22 23:42:58 其他开发

文本中不带标点符号的句子标注

我很难让CoreNLP系统正确地找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置。 苦苦挣扎的原因: 有些诗全长没有标点符号(有时没有大小写) 有些诗的句子从一段到另一段 有些诗每行开头都要大写 This is a particularly tricky one (系统认为第一句话以“”结尾。在第二节的开头) 考虑到缺少大写字母和标点符号,我想我应该尝试使用-t ..
发布时间:2022-04-22 23:20:37 Java开发

避免内存溢出错误的训练NER模型

我正在尝试使用stanford-nlp library训练NER模型。我有一个所需格式的文件,大小为6 GB。配置文件: usePrevSequences=true useClassFeature=true useTypeSeqs2=true useSequences=true wordShape=chris2useLC useTypeySequences=true useDisjuncti ..
发布时间:2022-04-22 23:11:07 其他开发

Java修改映射内的关键对象

我在使用Java MAP时遇到问题。我在地图中输入一个对象作为关键字。然后,我修改了键,映射不再将该对象视为映射的键。即使对象内的键已相应修改。 我正在使用来自StanfordNLP的对象CoreLabel,但我想它适用于一般情况。 Map myMap = new HashMap... CoreLabel key = someCreatedCor ..
发布时间:2022-04-22 22:42:29 Java开发

Python中的子句提取/长句切分

我目前正在进行一个涉及句子向量的项目(来自Roberta预先训练的模型)。当句子较长时,这些向量的质量较低,并且我的语料库包含许多带子句的长句。 我一直在寻找用于子句提取/长句分割的方法,但令我惊讶的是,没有任何主要的NLP包(例如Spacy或stanza)提供这一功能。 我想这可以通过使用空格或节的依赖关系解析来完成,但是要正确处理各种复杂的句子和边缘情况可能会相当复杂。 我遇 ..
发布时间:2022-02-22 16:20:06 Python

在 Python 中使用斯坦福正则表达式

我是 NLP 和 Python 的新手.我正在尝试使用 Tregex 工具和 Python 子进程库从来自 StanfordCoreNLP 的解析树中提取名词短语的子集.特别是,我正在尝试查找和提取与以下模式匹配的名词短语:'(NP[$VP]>S)|(NP[$VP]>S\n)|(NP\n[$VP]>S)|(NP\n[$VP]>S\n)' 在 Tregex 语法中. 例如,下面是原始文本,保存 ..
发布时间:2022-01-18 15:59:00 Python

姓名提取 - 简历/简历 - 斯坦福 NER/OpenNLP

我目前正在进行一个学习项目,从他们的简历/简历中提取个人姓名. 目前我正在与 Stanford-NER 和 OpenNLP 合作,这两家公司都在开箱即用方面取得了一定程度的成功,倾向于在“非西方"类型名称上挣扎(无意冒犯任何人). 我的问题是 - 鉴于在简历/简历中普遍缺乏与个人姓名相关的句子结构或上下文,我是否有可能通过创建类似于简历语料库的内容来显着改善姓名识别? > 我最初的 ..

stanford corenlp,拆分句子,缩写例外

Stanford Corenlp 中是否有指定缩写的选项?例如在句子中:The reason pt.呆在家里就是休息. pt是患者的缩写,corenlp错误地将其拆分为两个句子. 我想知道如何将缩写列表传递给斯坦福的分词器. 解决方案 简短的回答是“不,目前无法指定自定义缩写"(据我所知).更长的答案是此代码位于 *.flex 文件中,您可以向其中添加自定义缩写.我认为这样做的地方是 ..
发布时间:2022-01-02 18:02:37 其他开发

如何用斯坦福解析器解析英语以外的语言? 在 Java 中,而不是命令行

我一直在尝试在我的Java程序中使用Stanford Parser来解析一些中文句子.由于我对 Java 和斯坦福解析器都很陌生,所以我使用了“ParseDemo.java"来练习.该代码适用于英语句子并输出正确的结果.但是,当我将模型更改为“chinesePCFG.ser.gz"并尝试解析一些分段的中文句子时,出现问题. 这是我的 Java 代码 class ParserDemo {公共 ..
发布时间:2022-01-02 18:02:25 Java开发