nlp相关内容

POS 标签等中的缩写是什么意思?

假设我有以下 Penn Tree: (S (NP-SBJ 钢击)(VP持续(ADVP-TMP(ADVP 更长)(SBAR 比(S (NP-SBJ he)(VP预计(SBAR *?*)))))).) VP 和 SBAR 等缩写是什么意思?我在哪里可以找到这些定义?这些缩写叫什么? 解决方案 那些是 Penn Treebank 标签,例如,VP 的意思是“动词短语".可以在此处 找到完整 ..
发布时间:2022-01-02 17:53:00 其他开发

如何使用 nltk 找出英语中是否存在某个单词

我正在为这个问题寻找合适的解决方案.这个问题以前被问过很多次,我没有找到一个合适的答案.我需要使用NLTK中的语料库来检测一个词是否是英文词 我尝试过: wordnet.synsets(word) 这不适用于许多常用词.使用英文单词列表并在文件中执行查找不是一种选择.使用附魔也不是一种选择.如果有其他库可以做同样的事情,请提供api的用法.如果没有,请提供一个包含所有英文单词的 nltk ..
发布时间:2022-01-02 17:52:32 Python

如何为 sklearn CountVectorizer 设置自定义停用词?

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中,您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能,我认为仅适用于英语.我该如何使用我自己的 ..
发布时间:2022-01-02 17:52:20 AI人工智能

为什么这些词被认为是停用词?

我没有自然语言处理方面的正式背景,想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库,我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己",“我们",“我们的",“我们的",“我们自己"、“你们"、“你们的"、“你们的"、“ ..

函数调用堆栈:keras_scratch_graph 错误

我正在重新实施一个 text2speech 项目.我在解码器部分面临函数调用堆栈:keras_scratch_graph 错误.网络架构来自 Deep Voice 3 论文. 我在 Google Colab 上使用来自 TF 2.0 的 keras.下面是解码器 Keras 模型的代码. y1 = tf.ones(shape = (16, 203, 320))def解码器(名称=“解码器" ..
发布时间:2022-01-02 17:52:03 Python

nltk 中使用前瞻和回顾依赖的句子的概率树

nltk 或任何其他 NLP 工具是否允许基于输入句子构建概率树,从而将输入文本的语言模型存储在字典树中,如下 示例 给出了粗略的想法,但我需要相同的功能,以便单词 Wt 不仅可以概率建模过去的输入单词(历史)Wt-n,还可以建模 Wt+m 等前瞻单词.此外,回溯和前瞻字数也应该是 2 或更多,即 bigrams 或更多.python中是否有其他库可以实现这一点? from collection ..
发布时间:2022-01-02 17:51:55 Python

什么是自然语言处理中的chunker?

有谁知道在文本处理的上下文中什么是chunker以及它的用途是什么? 解决方案 根据这些幻灯片,分块是解析的替代方法,它提供了一个句子的部分句法结构,具有有限的树深度,而不是完整的解析. 它比完整解析更有限,但在提取或忽略信息时就足够了,因此被多次使用,因为它比解析更快、更健壮. 幻灯片中提供了更多信息. 更多链接: 更多幻灯片 纽约大学讲座笔记 ..
发布时间:2022-01-02 17:51:49 其他开发

分词高棉语的可行解决方案?

我正在研究将高棉语(柬埔寨语言)的长行拆分为单个单词(UTF-8)的解决方案.高棉语在单词之间不使用空格.有一些解决方案,但它们远远不够(这里 和 在这里),而那些项目已被搁置. 这是需要拆分的高棉语样本行(它们可以比这更长): ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូ ..

需要一个 python 模块来提取文本文档

我需要一个好的 python 模块来在预处理阶段提取文本文档. 我找到了这个 http://pypi.python.org/pypi/PyStemmer/1.0.1 但是我在提供的链接中找不到文档. 我知道在哪里可以找到文档或任何其他好的词干算法,请帮忙. 解决方案 你可能想试试 NLTK>>>从 nltk 进口 PorterStemmer>>>PorterStem ..
发布时间:2022-01-02 17:51:29 Python

斯坦福-NER定制软件编程关键词分类

我是 NLP 新手,我使用斯坦福 NER 工具对一些随机文本进行分类,以提取软件编程中使用的特殊关键字. 问题是,我不知道如何更改斯坦福 NER 中的分类器和文本注释器以识别软件编程关键字.例如: 今天 Java 用于不同的操作系统(Windows、Linux、..) 分类结果应如: Java“Programming_Language"Windows“操作系统"Linux“操作系统" ..
发布时间:2022-01-02 17:51:20 Java开发

R 或 python 中的词形还原器(是,是,是 -> 是?)

我不是一个[计算]语言学,所以请原谅我在这个话题上的晚饭. 根据维基百科,词形还原被定义为: 语言学中的词形还原(或词形还原)是将单词的不同屈折形式组合在一起的过程,以便将它们作为单个项目进行分析. 现在我的问题是,集合 {am, is, are} 中任何成员的词形还原版本都应该是“be"吗?如果没有,为什么不呢? 第二个问题:我如何在 R 或 python 中获得它?我尝 ..
发布时间:2022-01-02 17:51:08 Python

在管道处理期间可以从 spaCy 文档中删除令牌吗?

我正在使用 spaCy(一个很棒的 Python NLP 库)来处理许多非常大的文档,但是,我的语料库中有许多我想在文档处理管道中消除的常用词.有没有办法从管道组件内的文档中删除令牌? 解决方案 spaCy 的标记化非破坏性,因此它始终代表原始输入文本,从不添加或删除任何内容.这是 Doc 对象的核心原则:您应该总是能够重构和再现原始输入文本. 虽然您可以解决这个问题,但通常有更好的 ..
发布时间:2022-01-02 17:51:00 Python

如何使用php识别文本中的名称

我想使用 php 从文本中提取姓名(名字和姓氏).例子:从下面的文本中,我想提取姓名(在本例中为 Aline Wright 和 Jesse Wright) 艾琳·赖特是一名癌症幸存者,截肢者和新婚夫妇.周三晚上她开始表现出她是中风了. “我开始感觉到一些左臂麻木和面部下垂,"说艾琳. “在我看来,我可能是中风了." 那是她结婚四天的丈夫,杰西·赖特,把她放在车里将她送往厄兰 ..
发布时间:2022-01-02 17:50:49 PHP

Python:报纸模块 - 有什么方法可以直接从 URL 集中获取文章?

我正在使用 此处 的 Python 报纸模块. 在教程中,它描述了如何汇集不同报纸的构建.它同时生成它们.(参见上面链接中的“多线程文章下载") 有没有办法直接从网址列表中提取文章?也就是说,有什么方法可以将多个 url 输入到以下设置中并让它同时下载和解析它们? 来自报纸进口文章url = 'http://www.bbc.co.uk/zhongwen/simp/chinese_ne ..
发布时间:2022-01-02 17:50:42 Python

怎么去掉标点符号?

我在 Python 中使用 NLTK 的标记器. 论坛上已经有很多关于删除标点符号的答案.但是,它们都没有同时解决以下所有问题: 连续多个符号.例如,这句话:他说,“就是这样."因为有一个逗号后跟引号,分词器不会删除句子中的 .".分词器会给出 ['He', 'said', ',"', 'that', 's', 'it.'] 而不是 ['He','said', 'that', 's', ..
发布时间:2022-01-02 17:50:29 Python

从wordnet中选择合适的词义

我正在使用 Wordnet 来查找本体概念的同义词.我怎样才能为我的本体概念找到合适的意义.例如,有一个本体概念“会议",它在 wordnet 中具有以下同义词集名词会议有 3 个意义(前 3 个来自标记文本) (12) 会议 --(为协商或交换信息或讨论而预先安排的会议(尤其是有正式议程的会议)) (2) 联赛、会议 --(为其成员组织比赛的运动队协会) (2) 会议,小组讨论——(参 ..
发布时间:2022-01-02 17:50:22 其他开发

从作者单位中提取国家名称

我目前正在探索从作者单位(PubMed 文章)中提取国家名称的可能性,我的示例数据如下所示: 新加坡国立大学机械与生产工程系. 英国剑桥动物学系癌症研究运动哺乳动物细胞 DNA 修复小组 英国剑桥动物学系癌症研究运动哺乳动物细胞 DNA 修复小组. 礼来研究实验室,礼来公司,印第安纳波利斯,印第安纳州 46285. 最初我尝试删除标点符号并将向量拆分为单词,然后将其与 ..
发布时间:2022-01-02 17:50:12 其他开发

斯坦福在 python 中使用 coreNLP 键入依赖项

在斯坦福依赖手册中,他们提到了“斯坦福类型依赖",尤其是"neg" - 否定修饰符.当使用网站使用斯坦福增强++解析器时,它也可用.例如,句子: “巴拉克奥巴马不是出生在夏威夷" 解析器确实找到了 neg(born,not) 但是当我使用 stanfordnlp python 库时,我能得到的唯一依赖解析器将解析句子如下: ('Barack', '5', 'nsubj:pass ..
发布时间:2022-01-02 17:50:06 Python

我想创建一个系统,我给出一个句子,系统会吐出与我给出的输入句子含义相似的句子

这是一个 NLP 问题,我想知道我应该如何进行. 问题有多难?我可以用同义词替换这个词并检查语法是否正确吗? 解决方案 用同义词替换单词可能是首先要尝试的事情,但要注意不要错过多个单词的表达和习语.此外,请确保选择具有相同词性的同义词. 他们寻找一个好的解决方案 他们查看/盯着/...寻找一个好的解决方案 他们努力工作他们的工作/任务/......很难 ..