nlp相关内容

Spacy中的自定义句子切分

我希望spaCy使用我提供的句子分割边界,而不是它自己的处理。 例如: get_sentences("Bob meets Alice. @SentBoundary@ They play together.") # => ["Bob meets Alice.", "They play together."] # two sents get_sentences("Bob meets A ..
发布时间:2022-08-15 22:30:32 Python

数据帧作为TorchText中的数据源

我有一个数据框,它有两列(评论和观点)。我正在使用pytorch和torchtext库来对数据进行预处理。 是否可以使用DataFrame作为源来读取TorchText中的数据? 我正在寻找类似于的东西,但不是 data.TabularDataset.splits(path='./data') 我已对数据执行了一些操作(清除、更改为所需格式),最终数据在数据帧中。 如果不是torchT ..
发布时间:2022-07-24 10:08:41 其他开发

词汇空间大小模型';en_core_web_sm';

我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的 ..
发布时间:2022-07-20 12:31:13 AI人工智能

如何找出句子中是否提到了这个话题?-NLP

我是NLP的新手,我正在为我的问题寻找最合适的解决方案。 为了简化起见,我想从标题创建一个标记列表。 标记是预定义的,我可以轻松地标记用于培训的示例。 简单示例: 格式化示范句子&&-示范标记列表& 世界上最大的大象&&[动物] 我喜欢芒果和大猩猩-[动物,水果] 我有3只猫和4只狗&[动物] 我有糖尿病&&-[疾病] 我没有糖尿病,但我有一只猫-[动物] ..
发布时间:2022-07-20 12:24:39 Python

如何比较三个预先训练好的模型之间的余弦相似性?

我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗? 此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似? 推荐答案 当然有可能。在给定一定 ..
发布时间:2022-07-18 15:22:27 其他开发

自定义命名实体提取

我正在尝试使用Stanford NLP实现NER(命名实体提取)。 最终目标是将自由文本转换为查询格式。 我创建了一个定制词典,能够提取实体并构建查询 people who are from newyork 我将构建查询 select * from people where region = 'newyork' 但当声明被否定时,问题就出现了 非纽约人 如 ..
发布时间:2022-07-18 15:14:03 其他开发

如何提取数字(以及比较形容词或范围)

我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同 ..
发布时间:2022-06-29 16:51:21 Python

如何更新nltk包,使其不会将电子邮件分解为3个不同的令牌?

当我键入以下代码时: tokens = word_tokenize("a@b.com") 它分为以下3个标记:‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。 推荐答案 免责声明:有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式,只是显示了一个示例。 使用RegexpTokenizer(mentioned above ..
发布时间:2022-06-29 16:42:45 Python

安装与Python2兼容的较旧(但稳定)的NLTK版本

我想为python2.7安装一个较旧的(但稳定的)NLTK版本。 我尝试运行命令:pip install nltk===x.x.x,但终端报告了许多错误。 我想知道是否有可以下载nltk的存储库,或者是否有其他方法来解决这个问题。 谢谢 推荐答案 来自https://www.nltk.org/news.html,v3.4.5应该是支持Python2的最新版本。 pip insta ..
发布时间:2022-06-11 13:11:20 其他开发

使用Spacy从依存关系树中提取化合物和dobj

对于这样的句子:“更换了碳化炉浮子开关和减压阀。” 我想摘录以下内容: [更换碳罐浮子开关]、[更换安全阀] 使用Spacy作为语言模型时,我对该语句的依赖关系树是: 所以我知道Carciator是REPLED(动词)的直接宾语(Djob),但是: 1.碳化器不在其本身,而是三个名词“碳化器浮子开关”的一部分,也是“泄压阀”的一部分,如果更换了,它们也应该是更换的对象。 有 ..
发布时间:2022-05-15 23:32:43 其他开发

防止空格将段落编号拆分成句子

我正在使用Spacy对使用段落编号的文本进行句子切分,例如: text = '3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.' 我正在尝试强制Spacy的句子分割器不要将3.拆分成它自己的句子。 目前,以下代码返回三个单独的句子 ..
发布时间:2022-05-15 23:21:35 Python

在Spacy3中的文档中追加新实体失败

我正在Spacy的nlp管道中添加一个自定义组件。下面是我要遵循的步骤。 创建匹配器来挑选汽车名称 定义使用此匹配器的自定义组件,并将匹配项追加到现有的doc.ents。 尽管提供了SPAN对象类型,但最后一次追加失败。 # Matcher info cars = ['honda', 'toyota', 'yamaha', 'mazda', 'range rover', 'me ..
发布时间:2022-05-15 22:27:17 其他开发