nlp - IT屋-程序员软件开发技术分享社区

在使用nltk的meteor_core模块评估模型时，如何实现流星评分？

我目前有两个文件，ference.txt和mod.txt。这两个文本文件包含原始字幕和训练后生成的字幕。我是否可以简单地执行以下操作来获得流星分数： score = nltk.translate.meteor_score.meteor_score(reference, model) print(np.mean(meteor_score)) 我也看过https://github.com ..

如何解决在Web API中获得的值与通过ws4j中的源代码获得的值之间的差异？

我使用ws4j库开发了以下用于句子语义匹配的API。但我没能得到语义上的相似之处。输出以图像的形式附加，其中显示冗余或0的值。是否有遗漏调用的库？ package ws4jv01; import edu.cmu.lti.lexical_db.ILexicalDatabase; import edu.cmu.lti.lexical_db.NictWordNet; import edu.c ..

发布时间：2022-08-29 09:30:19 java nlp matching ws4j Java开发

相似性分数用于过滤 pandas 中的数据帧列

我有一个 pandas 数据帧df，其列名如下 columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select ..

发布时间：2022-08-18 16:05:31 pandas dataframe nlp data-cleaning rex Python

Spacy中的自定义句子切分

我希望spaCy使用我提供的句子分割边界，而不是它自己的处理。例如： get_sentences("Bob meets Alice. @SentBoundary@ They play together.") # => ["Bob meets Alice.", "They play together."] # two sents get_sentences("Bob meets A ..

发布时间：2022-08-15 22:30:32 python nlp spacy Python

数据帧作为TorchText中的数据源

我有一个数据框，它有两列(评论和观点)。我正在使用pytorch和torchtext库来对数据进行预处理。是否可以使用DataFrame作为源来读取TorchText中的数据？我正在寻找类似于的东西，但不是 data.TabularDataset.splits(path='./data') 我已对数据执行了一些操作(清除、更改为所需格式)，最终数据在数据帧中。如果不是torchT ..

发布时间：2022-07-24 10:08:41 dataframe nlp pytorch torchtext 其他开发

词汇空间大小模型'；en_core_web_sm'；

我试着在Spacy Small模型中查看词汇量： model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试，得到了不同的结果(1198和1183)。只有这么小的词汇量来训练词性标注，难道就应该是这样吗？当我在我的 ..

发布时间：2022-07-20 12:31:13 machine-learning nlp data-science spacy AI人工智能

如何找出句子中是否提到了这个话题？-NLP

我是NLP的新手，我正在为我的问题寻找最合适的解决方案。为了简化起见，我想从标题创建一个标记列表。标记是预定义的，我可以轻松地标记用于培训的示例。简单示例：格式化示范句子&&-示范标记列表& 世界上最大的大象&&[动物] 我喜欢芒果和大猩猩-[动物，水果] 我有3只猫和4只狗&[动物] 我有糖尿病&&-[疾病] 我没有糖尿病，但我有一只猫-[动物] ..

发布时间：2022-07-20 12:24:39 python nlp spacy Python

如何比较三个预先训练好的模型之间的余弦相似性？

我有两个语料库--一个是所有女性领导人的演讲，另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗？此外，如果两个语料库的余弦相似度不同，我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似？推荐答案当然有可能。在给定一定 ..

发布时间：2022-07-18 15:22:27 nlp gensim word2vec word-embedding glove 其他开发

自定义命名实体提取

我正在尝试使用Stanford NLP实现NER(命名实体提取)。最终目标是将自由文本转换为查询格式。我创建了一个定制词典，能够提取实体并构建查询 people who are from newyork 我将构建查询 select * from people where region = 'newyork' 但当声明被否定时，问题就出现了非纽约人如 ..

发布时间：2022-07-18 15:14:03 nlp stanford-nlp opennlp named-entity-extraction 其他开发

我是不是应该既执行列姆化，又执行词干删除？

我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作： lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem.stem(lem.lemmatize(word)) 我不想只用词汇化的原因是因为我注意到 ..

发布时间：2022-06-29 17:01:41 python machine-learning nlp nltk stemming AI人工智能

如何提取数字(以及比较形容词或范围)

我正在处理两个使用Python语言的NLP项目，它们的任务都类似于从语句中提取数值和比较运算符，如下所示： "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同 ..

发布时间：2022-06-29 16:51:21 python regex nlp nltk spacy Python

如何更新nltk包，使其不会将电子邮件分解为3个不同的令牌？

当我键入以下代码时： tokens = word_tokenize("a@b.com") 它分为以下3个标记：‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。推荐答案免责声明：有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式，只是显示了一个示例。使用RegexpTokenizer(mentioned above ..

发布时间：2022-06-29 16:42:45 python regex nlp nltk Python

如何在不使用空格作为单词分隔符的语言(如中文)上执行PythonSplit()？

我要将一个句子拆分成单词列表。对于英语和欧洲语言，这很容易，只需使用Split() >>> "This is a sentence.".split() ['This', 'is', 'a', 'sentence.'] 但我还需要处理中文等不使用空格作为单词分隔符的句子。 >>> u"这是一个句子".split() [u'u8fd9u662fu4e00u4e2au53e5u5 ..

发布时间：2022-06-23 09:32:40 python string unicode nlp cjk Python

安装与Python2兼容的较旧(但稳定)的NLTK版本

我想为python2.7安装一个较旧的(但稳定的)NLTK版本。我尝试运行命令：pip install nltk===x.x.x，但终端报告了许多错误。我想知道是否有可以下载nltk的存储库，或者是否有其他方法来解决这个问题。谢谢推荐答案来自https://www.nltk.org/news.html，v3.4.5应该是支持Python2的最新版本。 pip insta ..

发布时间：2022-06-11 13:11:20 python-2.7 nlp nltk python-2.x 其他开发

使用Spacy从依存关系树中提取化合物和dobj

对于这样的句子：“更换了碳化炉浮子开关和减压阀。” 我想摘录以下内容： [更换碳罐浮子开关]、[更换安全阀] 使用Spacy作为语言模型时，我对该语句的依赖关系树是：所以我知道Carciator是REPLED(动词)的直接宾语(Djob)，但是： 1.碳化器不在其本身，而是三个名词“碳化器浮子开关”的一部分，也是“泄压阀”的一部分，如果更换了，它们也应该是更换的对象。有 ..

发布时间：2022-05-15 23:32:43 nlp spacy 其他开发

防止空格将段落编号拆分成句子

我正在使用Spacy对使用段落编号的文本进行句子切分，例如： text = '3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.' 我正在尝试强制Spacy的句子分割器不要将3.拆分成它自己的句子。目前，以下代码返回三个单独的句子 ..

发布时间：2022-05-15 23:21:35 python nlp spacy sentence Python

如何获得连词在空格中的跨度？

我使用spacy，token.conjuncts来获取每个标记的合取词。但是，token.conjuncts的返回类型是tuple，但我想获取span类型，例如： import spacy nlp = spacy.load("en_core_web_lg") sentence = "I like to eat food at the lunch time, or even at t ..

发布时间：2022-05-15 22:36:47 python nlp spacy conjunctive-normal-form Python

在Spacy3中的文档中追加新实体失败

我正在Spacy的nlp管道中添加一个自定义组件。下面是我要遵循的步骤。创建匹配器来挑选汽车名称定义使用此匹配器的自定义组件，并将匹配项追加到现有的doc.ents。尽管提供了SPAN对象类型，但最后一次追加失败。 # Matcher info cars = ['honda', 'toyota', 'yamaha', 'mazda', 'range rover', 'me ..

发布时间：2022-05-15 22:27:17 nlp spacy spacy-3 其他开发

我正在试着用新的实体‘动物’来培训一名客户。但我有一个单字数据集，如下所示： TRAIN_DATA = [("Whale_ Blue", {"entities": [(0,11,LABEL)]}), ("Shark_ whale", {"entities": [(0,12,LABEL)]}), ("Elephant_ African", {"entities": [(0,17,LABEL)] ..

发布时间：2022-05-15 22:14:10 nlp spacy 其他开发

无法将IOB转换为SPACY二进制格式

我尝试将IOB(每行令牌NER)文件(训练/测试)转换为Spacy 3二进制格式。输入格式示例(带分隔符"；"；，无空格，编码utf-8)： Département B-LOCATION des I-LOCATION Bouches-du-Rhône I-LOCATION . O Port B-INSTALLATION de I-INSTALLATI ..

发布时间：2022-05-15 20:20:59 python nlp spacy named-entity-recognition Python

nlp相关内容