nlp相关内容
我目前有两个文件,ference.txt和mod.txt。这两个文本文件包含原始字幕和训练后生成的字幕。 我是否可以简单地执行以下操作来获得流星分数: score = nltk.translate.meteor_score.meteor_score(reference, model) print(np.mean(meteor_score)) 我也看过https://github.com
..
我使用ws4j库开发了以下用于句子语义匹配的API。但我没能得到语义上的相似之处。 输出以图像的形式附加,其中显示冗余或0的值。 是否有遗漏调用的库? package ws4jv01; import edu.cmu.lti.lexical_db.ILexicalDatabase; import edu.cmu.lti.lexical_db.NictWordNet; import edu.c
..
我有一个 pandas 数据帧df,其列名如下 columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select
..
我希望spaCy使用我提供的句子分割边界,而不是它自己的处理。 例如: get_sentences("Bob meets Alice. @SentBoundary@ They play together.") # => ["Bob meets Alice.", "They play together."] # two sents get_sentences("Bob meets A
..
我有一个数据框,它有两列(评论和观点)。我正在使用pytorch和torchtext库来对数据进行预处理。 是否可以使用DataFrame作为源来读取TorchText中的数据? 我正在寻找类似于的东西,但不是 data.TabularDataset.splits(path='./data') 我已对数据执行了一些操作(清除、更改为所需格式),最终数据在数据帧中。 如果不是torchT
..
我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的
..
我是NLP的新手,我正在为我的问题寻找最合适的解决方案。 为了简化起见,我想从标题创建一个标记列表。 标记是预定义的,我可以轻松地标记用于培训的示例。 简单示例: 格式化示范句子&&-示范标记列表& 世界上最大的大象&&[动物] 我喜欢芒果和大猩猩-[动物,水果] 我有3只猫和4只狗&[动物] 我有糖尿病&&-[疾病] 我没有糖尿病,但我有一只猫-[动物]
..
我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗? 此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似? 推荐答案 当然有可能。在给定一定
..
我正在尝试使用Stanford NLP实现NER(命名实体提取)。 最终目标是将自由文本转换为查询格式。 我创建了一个定制词典,能够提取实体并构建查询 people who are from newyork 我将构建查询 select * from people where region = 'newyork' 但当声明被否定时,问题就出现了 非纽约人 如
..
我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作: lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem.stem(lem.lemmatize(word)) 我不想只用词汇化的原因是因为我注意到
..
我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同
..
当我键入以下代码时: tokens = word_tokenize("a@b.com") 它分为以下3个标记:‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。 推荐答案 免责声明:有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式,只是显示了一个示例。 使用RegexpTokenizer(mentioned above
..
我要将一个句子拆分成单词列表。 对于英语和欧洲语言,这很容易,只需使用Split() >>> "This is a sentence.".split() ['This', 'is', 'a', 'sentence.'] 但我还需要处理中文等不使用空格作为单词分隔符的句子。 >>> u"这是一个句子".split() [u'u8fd9u662fu4e00u4e2au53e5u5
..
我想为python2.7安装一个较旧的(但稳定的)NLTK版本。 我尝试运行命令:pip install nltk===x.x.x,但终端报告了许多错误。 我想知道是否有可以下载nltk的存储库,或者是否有其他方法来解决这个问题。 谢谢 推荐答案 来自https://www.nltk.org/news.html,v3.4.5应该是支持Python2的最新版本。 pip insta
..
对于这样的句子:“更换了碳化炉浮子开关和减压阀。” 我想摘录以下内容: [更换碳罐浮子开关]、[更换安全阀] 使用Spacy作为语言模型时,我对该语句的依赖关系树是: 所以我知道Carciator是REPLED(动词)的直接宾语(Djob),但是: 1.碳化器不在其本身,而是三个名词“碳化器浮子开关”的一部分,也是“泄压阀”的一部分,如果更换了,它们也应该是更换的对象。 有
..
我正在使用Spacy对使用段落编号的文本进行句子切分,例如: text = '3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.' 我正在尝试强制Spacy的句子分割器不要将3.拆分成它自己的句子。 目前,以下代码返回三个单独的句子
..
我使用spacy,token.conjuncts来获取每个标记的合取词。 但是,token.conjuncts的返回类型是tuple,但我想获取span类型,例如: import spacy nlp = spacy.load("en_core_web_lg") sentence = "I like to eat food at the lunch time, or even at t
..
我正在Spacy的nlp管道中添加一个自定义组件。下面是我要遵循的步骤。 创建匹配器来挑选汽车名称 定义使用此匹配器的自定义组件,并将匹配项追加到现有的doc.ents。 尽管提供了SPAN对象类型,但最后一次追加失败。 # Matcher info cars = ['honda', 'toyota', 'yamaha', 'mazda', 'range rover', 'me
..
我正在试着用新的实体‘动物’来培训一名客户。但我有一个单字数据集,如下所示: TRAIN_DATA = [("Whale_ Blue", {"entities": [(0,11,LABEL)]}), ("Shark_ whale", {"entities": [(0,12,LABEL)]}), ("Elephant_ African", {"entities": [(0,17,LABEL)]
..
我尝试将IOB(每行令牌NER)文件(训练/测试)转换为Spacy 3二进制格式。 输入格式示例(带分隔符";";,无空格,编码utf-8): Département B-LOCATION des I-LOCATION Bouches-du-Rhône I-LOCATION . O Port B-INSTALLATION de I-INSTALLATI
..