named-entity-recognition相关内容
我使用Inestination 0.11.0(https://inception-project.github.io/)来注释我的培训数据。 我想用PYTHON SPACY来使用这个训练数据。我可以在《盗梦空间》中看到几种我可以输出的格式,但我不确定哪一种最适合Spacy。 我看不到任何有关将这些导出的文件转换为Space格式的文档。 我可以编写一个新脚本来执行此转换。在这样做之前,我
..
我尝试将IOB(每行令牌NER)文件(训练/测试)转换为Spacy 3二进制格式。 输入格式示例(带分隔符";";,无空格,编码utf-8): Département B-LOCATION des I-LOCATION Bouches-du-Rhône I-LOCATION . O Port B-INSTALLATION de I-INSTALLATI
..
我想创建一个Spacy NER模型,该模型根据文档类型识别和使用标记。 输入为json格式。示例- {"text":{"a":"ABC DEF.","b":"CDE FG."}, "annotations":[ {"start":0,"end":3,"doc_type":"a","label":{"text":"FIRST"},"text":"ABC"}, {"s
..
我目前正在开发一个NER模型。我有一堆以CoNLL格式存储的数据,需要转换为Spacy格式。在CoNLL中,句子中的每个单词旁边都有一个标签。在Spacy中,标签只显示给有实际标签的单词。 如何从以下格式转换(CoNLL) From O 2001 B-DateTime to I-DateTime 2004 I-DateTime , O I O was O a
..
我对Spacy NER模型的输入数据在BILUO标记方案中,我希望将其用作某些需求的一部分。当我试着在没有小批量的情况下简单地训练模型时,它工作得很好(注释部分)。但是我不知道如何在这里使用MiniBatch和GoldParse来提高模型的精度。我的期望在这里是有效的,因为我找不到一个具有这种组合的例子?此外,我已经用开始、结束、标签格式的方法训练了模型。请帮我弄清楚这一节。我的代码如下 i
..
我已经使用实体规则为社保号添加了新标签。 我甚至设置了OVERWRITE_ENTS=TRUE,但它仍然无法识别 我验证了正则表达式是否正确。不知道我还需要做什么 我以前尝试过=“ner”,但结果相同 text = "My name is yuyyvb and I leave on 605 W Clinton Street. My social security 690-96-4032"
..
我正在使用Spacy并尝试检测文本中的姓名。例如,Text=‘Kera是一个很好的套餐。Adam Smith使用一辆黑色的汽车。我希望Katrina在她的工作中做得很好。’ 答案应该是这样的:亚当·斯密和卡特里娜飓风。 谁能推荐 推荐答案 这是一个典型的命名实体识别问题。Spacy有一个预先训练的模型来实现这一点,该模型应该能够准确地检测人名。 查看this code s
..
我有已经以拼写格式标记的数据。例如: ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}), ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}) 但我想尝试使用任何其他NER模型来训练它,例如Bert-ner,它需要IOB
..
也许我跳过了文档的一部分,但我试图确定的是标准NER工具集中每个实体的唯一ID。例如: import spacy from spacy import displacy import en_core_web_sm nlp = en_core_web_sm.load() text = "This is a text about Apple Inc based in San Fransisco.
..
我有全部以小写形式存储的关键字,例如我正在尝试对其执行实体提取的“折扣耐克鞋”。我遇到的问题是,当涉及到NER时,Spacy似乎区分大小写。请注意,我不认为这是特定于Spacy的。 当我运行... doc = nlp(u"i love nike shoes from the uk") for ent in doc.ents: print(ent.text, ent.start
..
我想将Spacy的NER引擎与单独的NER引擎(弓模型)结合在一起。我目前正在比较这两个引擎的输出,试图找出这两个引擎的最佳组合。两者都执行得很好,但Spacy经常会找到弓引擎遗漏的实体,反之亦然。我想要的是每当Spacy找到弓引擎没有找到的实体时,它都可以访问一个概率分数(或类似的东西)。我可以让Spacy为它找到的给定实体打印出自己的概率分数吗?比如,“嗨,我是Spacy。我找到了这个令牌(或
..
我正在尝试培训Spacy Ner的新实体。我尝试将我的新实体添加到现有的Spacy‘en’模型中。但是,这影响了'en'和我的新实体的预测模型。 因此,我创建了一个空白模型,并训练了实体识别。这样做效果很好。然而,它只能预测我训练过的那些,而不能预测常规的空间实体识别。 假设我把‘马’训练成动物实体。 对于给定文本 txt ='Did you know that Georg
..
我正在尝试从非结构化文本中提取信息。例如 这位首席执行官最近征求了对正在开发的卡车增加功能的建议,他透露了一些计划中的功能,比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时,首席执行官给出了2021年第二季度的估计时间。 理想的输出应该类似于 [minRange = 400, maxRange = 500
..
我目前正在进行一个学习项目,从他们的简历/简历中提取个人姓名. 目前我正在与 Stanford-NER 和 OpenNLP 合作,这两家公司都在开箱即用方面取得了一定程度的成功,倾向于在“非西方"类型名称上挣扎(无意冒犯任何人). 我的问题是 - 鉴于在简历/简历中普遍缺乏与个人姓名相关的句子结构或上下文,我是否有可能通过创建类似于简历语料库的内容来显着改善姓名识别? > 我最初的
..
如果我在命令行中使用这样的查询 ./opennlp TokenNameFinder en-ner-person.bin "input.txt" "output.txt" 我会在 output.txt 中打印人名,但我想编写自己的模型,以便我应该打印自己的实体. 例如 icm2500 上的风险值是多少. prd_234 的交付将延迟到达. Watson 正在处理 router_3
..
我有一个函数,它使用斯坦福 NER 返回给定文本正文中的命名实体. def get_named_entities(text):load_ner_files()print text[:100] # 显示文字没问题text_split = text.split()打印 text_split # 显示拆分工作正常结果 = "命名实体 = ", st.tag(text_split)返回结果 我正在使用
..
我一直在寻找将 Hugging Face 的管道用于 NER(命名实体识别).但是,它以内-外-开始 (IOB) 格式返回实体标签,但 没有 IOB 标签.所以我无法将管道的输出映射回我的原始文本.此外,输出以 BERT 标记化格式进行屏蔽(默认模型为 BERT-large). 例如: 来自转换器导入管道nlp_bert_lg = 管道('ner')print(nlp_bert_lg('H
..
我想使用 php 从文本中提取姓名(名字和姓氏).例子:从下面的文本中,我想提取姓名(在本例中为 Aline Wright 和 Jesse Wright) 艾琳·赖特是一名癌症幸存者,截肢者和新婚夫妇.周三晚上她开始表现出她是中风了. “我开始感觉到一些左臂麻木和面部下垂,"说艾琳. “在我看来,我可能是中风了." 那是她结婚四天的丈夫,杰西·赖特,把她放在车里将她送往厄兰
..
首先我将文件内容标记为句子,然后对每个句子调用斯坦福 NER.但是这个过程真的很慢.我知道如果我在整个文件内容上调用它会更快,但是我在每个句子上调用它,因为我想在 NE 识别之前和之后索引每个句子. st = NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', 'stanford-ner/stan
..
有什么好的算法可以用城市/地区或来源自动标记文本?也就是说,如果博客是关于纽约的,我如何以编程方式讲述.是否有任何包裹/文件声称可以肯定地做到这一点? 我已经研究了一些基于 tfidf 的方法、专有名词交叉点,但到目前为止,还没有取得惊人的成功,我很感激想法! 给定一些主题列表,更一般的问题是将文本分配给主题. 简单/幼稚的方法比完整的贝叶斯方法更受欢迎,但我是开放的. 解
..