nlp 第8页 - IT屋-程序员软件开发技术分享社区

POS 标签等中的缩写是什么意思?

假设我有以下 Penn Tree: (S (NP-SBJ 钢击)(VP持续(ADVP-TMP(ADVP 更长)(SBAR 比(S (NP-SBJ he)(VP预计(SBAR *?*)))))).) VP 和 SBAR 等缩写是什么意思?我在哪里可以找到这些定义?这些缩写叫什么? 解决方案那些是 Penn Treebank 标签，例如，VP 的意思是“动词短语".可以在此处找到完整 ..

发布时间：2022-01-02 17:53:00 language-agnostic nlp stanford-nlp 其他开发

是否有任何可用于印度语的词干分析器

是否有针对印度语言(印地语、泰卢固语)的词干分析器的任何实现可用.... 解决方案印地语分析器，带有词干分析器，在 Lucene 中可用.它基于此算法(pdf). ..

发布时间：2022-01-02 17:52:44 nlp stemming indic 其他开发

如何使用 nltk 找出英语中是否存在某个单词

我正在为这个问题寻找合适的解决方案.这个问题以前被问过很多次，我没有找到一个合适的答案.我需要使用NLTK中的语料库来检测一个词是否是英文词我尝试过: wordnet.synsets(word) 这不适用于许多常用词.使用英文单词列表并在文件中执行查找不是一种选择.使用附魔也不是一种选择.如果有其他库可以做同样的事情，请提供api的用法.如果没有，请提供一个包含所有英文单词的 nltk ..

发布时间：2022-01-02 17:52:32 python python-3.x nlp nltk wordnet Python

如何为 sklearn CountVectorizer 设置自定义停用词?

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中，您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能，我认为仅适用于英语.我该如何使用我自己的 ..

发布时间：2022-01-02 17:52:20 python machine-learning scikit-learn nlp AI人工智能

为什么这些词被认为是停用词?

我没有自然语言处理方面的正式背景，想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库，我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己"，“我们"，“我们的"，“我们的"，“我们自己"、“你们"、“你们的"、“你们的"、“ ..

发布时间：2022-01-02 17:52:13 language-agnostic machine-learning nlp nltk stop-words AI人工智能

函数调用堆栈:keras_scratch_graph 错误

我正在重新实施一个 text2speech 项目.我在解码器部分面临函数调用堆栈:keras_scratch_graph 错误.网络架构来自 Deep Voice 3 论文. 我在 Google Colab 上使用来自 TF 2.0 的 keras.下面是解码器 Keras 模型的代码. y1 = tf.ones(shape = (16, 203, 320))def解码器(名称=“解码器" ..

发布时间：2022-01-02 17:52:03 python tensorflow keras nlp tensorflow2.0 Python

nltk 或任何其他 NLP 工具是否允许基于输入句子构建概率树，从而将输入文本的语言模型存储在字典树中，如下示例给出了粗略的想法，但我需要相同的功能，以便单词 Wt 不仅可以概率建模过去的输入单词(历史)Wt-n，还可以建模 Wt+m 等前瞻单词.此外，回溯和前瞻字数也应该是 2 或更多，即 bigrams 或更多.python中是否有其他库可以实现这一点? from collection ..

发布时间：2022-01-02 17:51:55 python dictionary nlp nltk linguistics Python

什么是自然语言处理中的chunker?

有谁知道在文本处理的上下文中什么是chunker以及它的用途是什么? 解决方案根据这些幻灯片，分块是解析的替代方法，它提供了一个句子的部分句法结构，具有有限的树深度，而不是完整的解析. 它比完整解析更有限，但在提取或忽略信息时就足够了，因此被多次使用，因为它比解析更快、更健壮. 幻灯片中提供了更多信息. 更多链接: 更多幻灯片纽约大学讲座笔记 ..

发布时间：2022-01-02 17:51:49 nlp chunking 其他开发

分词高棉语的可行解决方案?

我正在研究将高棉语(柬埔寨语言)的长行拆分为单个单词(UTF-8)的解决方案.高棉语在单词之间不使用空格.有一些解决方案，但它们远远不够(这里和在这里)，而那些项目已被搁置. 这是需要拆分的高棉语样本行(它们可以比这更长): ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូ ..

发布时间：2022-01-02 17:51:39 python nlp word-boundary text-segmentation southeast-asian-languages Python

需要一个 python 模块来提取文本文档

我需要一个好的 python 模块来在预处理阶段提取文本文档. 我找到了这个 http://pypi.python.org/pypi/PyStemmer/1.0.1 但是我在提供的链接中找不到文档. 我知道在哪里可以找到文档或任何其他好的词干算法，请帮忙. 解决方案你可能想试试 NLTK>>>从 nltk 进口 PorterStemmer>>>PorterStem ..

发布时间：2022-01-02 17:51:29 python module preprocessor nlp stemming Python

斯坦福-NER定制软件编程关键词分类

我是 NLP 新手，我使用斯坦福 NER 工具对一些随机文本进行分类，以提取软件编程中使用的特殊关键字. 问题是，我不知道如何更改斯坦福 NER 中的分类器和文本注释器以识别软件编程关键字.例如: 今天 Java 用于不同的操作系统(Windows、Linux、..) 分类结果应如: Java“Programming_Language"Windows“操作系统"Linux“操作系统" ..

发布时间：2022-01-02 17:51:20 java nlp classification stanford-nlp Java开发

R 或 python 中的词形还原器(是，是，是 -> 是?)

我不是一个[计算]语言学，所以请原谅我在这个话题上的晚饭. 根据维基百科，词形还原被定义为: 语言学中的词形还原(或词形还原)是将单词的不同屈折形式组合在一起的过程，以便将它们作为单个项目进行分析. 现在我的问题是，集合 {am, is, are} 中任何成员的词形还原版本都应该是“be"吗?如果没有，为什么不呢? 第二个问题:我如何在 R 或 python 中获得它?我尝 ..

发布时间：2022-01-02 17:51:08 python r nlp nltk lemmatization Python

在管道处理期间可以从 spaCy 文档中删除令牌吗?

我正在使用 spaCy(一个很棒的 Python NLP 库)来处理许多非常大的文档，但是，我的语料库中有许多我想在文档处理管道中消除的常用词.有没有办法从管道组件内的文档中删除令牌? 解决方案 spaCy 的标记化非破坏性，因此它始终代表原始输入文本，从不添加或删除任何内容.这是 Doc 对象的核心原则:您应该总是能够重构和再现原始输入文本. 虽然您可以解决这个问题，但通常有更好的 ..

发布时间：2022-01-02 17:51:00 python nlp spacy Python

如何使用php识别文本中的名称

我想使用 php 从文本中提取姓名(名字和姓氏).例子:从下面的文本中，我想提取姓名(在本例中为 Aline Wright 和 Jesse Wright) 艾琳·赖特是一名癌症幸存者，截肢者和新婚夫妇.周三晚上她开始表现出她是中风了. “我开始感觉到一些左臂麻木和面部下垂，"说艾琳. “在我看来，我可能是中风了." 那是她结婚四天的丈夫，杰西·赖特，把她放在车里将她送往厄兰 ..

发布时间：2022-01-02 17:50:49 php nlp named-entity-recognition PHP

Python:报纸模块 - 有什么方法可以直接从 URL 集中获取文章?

我正在使用此处的 Python 报纸模块. 在教程中，它描述了如何汇集不同报纸的构建.它同时生成它们.(参见上面链接中的“多线程文章下载") 有没有办法直接从网址列表中提取文章?也就是说，有什么方法可以将多个 url 输入到以下设置中并让它同时下载和解析它们? 来自报纸进口文章url = 'http://www.bbc.co.uk/zhongwen/simp/chinese_ne ..

发布时间：2022-01-02 17:50:42 python multithreading parsing nlp python-newspaper Python

怎么去掉标点符号?

我在 Python 中使用 NLTK 的标记器. 论坛上已经有很多关于删除标点符号的答案.但是，它们都没有同时解决以下所有问题: 连续多个符号.例如，这句话:他说，“就是这样."因为有一个逗号后跟引号，分词器不会删除句子中的 .".分词器会给出 ['He', 'said', ',"', 'that', 's', 'it.'] 而不是 ['He','said', 'that', 's', ..

发布时间：2022-01-02 17:50:29 python nlp nltk Python

从wordnet中选择合适的词义

我正在使用 Wordnet 来查找本体概念的同义词.我怎样才能为我的本体概念找到合适的意义.例如，有一个本体概念“会议"，它在 wordnet 中具有以下同义词集名词会议有 3 个意义(前 3 个来自标记文本) (12) 会议 --(为协商或交换信息或讨论而预先安排的会议(尤其是有正式议程的会议)) (2) 联赛、会议 --(为其成员组织比赛的运动队协会) (2) 会议，小组讨论——(参 ..

发布时间：2022-01-02 17:50:22 nlp ontology wordnet word-sense-disambiguation 其他开发

从作者单位中提取国家名称

我目前正在探索从作者单位(PubMed 文章)中提取国家名称的可能性，我的示例数据如下所示: 新加坡国立大学机械与生产工程系. 英国剑桥动物学系癌症研究运动哺乳动物细胞 DNA 修复小组英国剑桥动物学系癌症研究运动哺乳动物细胞 DNA 修复小组. 礼来研究实验室，礼来公司，印第安纳波利斯，印第安纳州 46285. 最初我尝试删除标点符号并将向量拆分为单词，然后将其与 ..

发布时间：2022-01-02 17:50:12 r text nlp 其他开发

斯坦福在 python 中使用 coreNLP 键入依赖项

在斯坦福依赖手册中，他们提到了“斯坦福类型依赖"，尤其是"neg" - 否定修饰符.当使用网站使用斯坦福增强++解析器时，它也可用.例如，句子: “巴拉克奥巴马不是出生在夏威夷" 解析器确实找到了 neg(born,not) 但是当我使用 stanfordnlp python 库时，我能得到的唯一依赖解析器将解析句子如下: ('Barack', '5', 'nsubj:pass ..

发布时间：2022-01-02 17:50:06 python parsing nlp stanford-nlp Python

我想创建一个系统，我给出一个句子，系统会吐出与我给出的输入句子含义相似的句子

这是一个 NLP 问题，我想知道我应该如何进行. 问题有多难?我可以用同义词替换这个词并检查语法是否正确吗? 解决方案用同义词替换单词可能是首先要尝试的事情，但要注意不要错过多个单词的表达和习语.此外，请确保选择具有相同词性的同义词. 他们寻找一个好的解决方案他们查看/盯着/...寻找一个好的解决方案他们努力工作他们的工作/任务/......很难 ..

发布时间：2022-01-02 17:49:57 nlp grammar similarity sentence word-sense-disambiguation 其他开发

nlp相关内容