nlp 第5页 - IT屋-程序员软件开发技术分享社区

在 openNLP 中编写我们自己的模型

如果我在命令行中使用这样的查询 ./opennlp TokenNameFinder en-ner-person.bin "input.txt" "output.txt" 我会在 output.txt 中打印人名，但我想编写自己的模型，以便我应该打印自己的实体. 例如 icm2500 上的风险值是多少. prd_234 的交付将延迟到达. Watson 正在处理 router_3 ..

发布时间：2022-01-02 18:02:09 java nlp opennlp named-entity-recognition Java开发

NLTK 中的斯坦福 NER 未正确标记多个句子 - Python

我有一个函数，它使用斯坦福 NER 返回给定文本正文中的命名实体. def get_named_entities(text):load_ner_files()print text[:100] # 显示文字没问题text_split = text.split()打印 text_split # 显示拆分工作正常结果 = "命名实体 = ", st.tag(text_split)返回结果我正在使用 ..

发布时间：2022-01-02 18:01:48 python nlp nltk stanford-nlp named-entity-recognition Python

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法，但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..

发布时间：2022-01-02 18:01:41 python machine-learning encoding nlp categorical-data AI人工智能

Cocoa 中是否有一些功能可以用自然语言显示时间间隔?

我正在寻找的是一个可以用自然语言显示时间间隔的 Cocoa(或第三方)类，例如: 10 秒前 1 小时前 2 天前你知道有什么可以帮助我完成这项任务而无需自己编写并陷入 if-else 地狱的吗? 解决方案我最初指出的那个似乎不存在了，但正如指出的那样有 NSDate-TimeAgo，我没试过，但我觉得不错. 编辑:更新答案以指向现有代码 ..

发布时间：2022-01-02 18:01:34 objective-c cocoa date frameworks nlp 移动开发

Perl - 在关联数组中查找并保存单词和单词上下文

我有一个这样的数组(它只是一个小小的概述，但它有 2000 多行这样的): @list = (“外遇，选择，问题"，"原因,选择,matière",); 我想要这个输出: %te = (外遇 =>“选择"，“问题"，选择 =>"affaire", "question", "cause", "matière",问题 =>"事务", "选择",原因 =>"选择", "matière",材料 => ..

发布时间：2022-01-02 18:01:22 arrays perl nlp associative-array 其他开发

如何在 NLTK 的 Wordnet 中检索目标同义词集的反义词同义词集?

我已成功检索到通过其他语义关系连接到基本同义词集的同义词集，如下所示: wn.synset('good.a.01').also_sees()出[63]:[Synset('best.a.01'),Synset('better.a.01'),Synset('favorable.a.01'),Synset('good.a.03'),Synset('obedient.a.01'),Synset('可敬 ..

发布时间：2022-01-02 18:01:12 python nlp nltk wordnet lemmatization Python

伯特针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站，但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型，并将其应用于我的任务.合理吗? 据我所知，计算相似度的方法有很多，包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案作为前面的一般性评论，我想强调的是 ..

发布时间：2022-01-02 18:00:56 nlp cosine-similarity pearson-correlation sentence-similarity 其他开发

如何连接词向量形成句子向量

我在一些文章(Tomas Mikolov...)中了解到，形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙，我仍然不确定细节. 例如假设词向量的维数为m；并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案组合嵌入向量至少有三种常用的方法；(a) 求和，(b) 求和 ..

发布时间：2022-01-02 18:00:48 machine-learning deep-learning nlp word2vec AI人工智能

一个(生物医学)词的词干的所有可能的词形补全

我熟悉 R 中 tm 包中的词干和补全. 我试图想出一种快速而肮脏的方法来查找给定单词的所有变体(在某个语料库中).例如，如果我的输入是“白细胞"和“白细胞"，我想得到“白细胞". 如果我现在必须这样做，我可能会选择这样的: 图书馆(tm)图书馆(RWeka)字典 ..

发布时间：2022-01-02 18:00:39 python r nlp bioinformatics text-mining Python

NLTK 的 XMLCorpusReader 可以用于多文件语料库吗?

我试图用NLTK做对的 ..

发布时间：2022-01-02 18:00:31 python xml nltk nlp Python

在 Java 中将单词转换为名词/形容词/动词形式

是否有可能用 Java 替代 NLTK 来“动词化"，如在这个问题中所见? 在动词/名词/形容词形式之间转换词例如我想将出生转换为出生，因为在使用 Wordnet Similarity 时，算法没有显示出生和出生非常相似. 因此，我想将出生转换为出生，反之亦然.为了有更多相似的词. 你有什么建议?我找到了一些工具，但我不确定他们是否可以做到这一点:- NTLK(我猜只有蟒蛇) ..

发布时间：2022-01-02 18:00:24 java nlp nltk stanford-nlp opennlp Java开发

如何在字符级别对句子进行单热编码?

我想将一个句子转换为一个单热向量数组.这些向量将是字母表的 one-hot 表示.它看起来像下面这样: "hello" # h=7, e=4 l=11 o=14 会变成 [[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0][0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ..

发布时间：2022-01-02 18:00:14 python pandas numpy nlp one-hot-encoding Python

为什么 Synopse 断字代码给出与 TeX 不同的结果?

此问题遵循上一个问题，但有所不同.Synopse 的 delphi 连字速度非常快，并且基于 OpenOffice 使用 TeX 连字的 libhnj 库. 一个简单的测试是: 如果我输入“发音"，Synopse 连字符输出“pro=nun=ci=ation"(4 个可能的连字符或音节).//(不是“pro=nun=ci=a=tion"，5 个连字符或音节). 我阅读了 2 篇 ..

发布时间：2022-01-02 18:00:05 delphi nlp hyphenation 其他开发

Python 中的 NLP:向量化后从 SelectKBest 中获取词名

我似乎无法找到我的确切问题的答案.有人可以帮忙吗? 我的数据框(“df")的简化描述:它有两列:一列是一堆文本(“注释")，另一列是一个二进制变量，指示解析时间是否高于平均水平(“y"). 我对文本做了词袋处理: from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorize ..

发布时间：2022-01-02 17:59:56 python nlp vectorization Python

如何使用非英语(孟加拉语)语言将数据输入到此数据库表中?

如何使用非英语(孟加拉语)语言将数据输入到此数据库表中? 解决方案正如@Tim 所指出的，您需要将表/数据库/列的 collation 更改为 UTF-8.首先检查您的database/table/column 的排序规则. 检查整理: 如何检查DATABASE的排序: SELECTdefault_character_set_name从information_schem ..

发布时间：2022-01-02 17:59:49 mysql sql database netbeans nlp 数据库

如何在 Python 中使用 NLP、RegEx 查找句子中的日期

谁能给我建议一些查找和解析日期的方法(以任何格式，“Aug06"、“Aug2006"、“2008 年 8 月 2 日"、“2006 年 8 月 19 日"、“08-06"、“01-08-06") 在 python 中. 我遇到了这个问题，但它是在 perl...从字符串中提取格式不一致的日期(日期解析，NLP) 任何建议都会有所帮助. 解决方案这会查找例句中的所有日期: 用 ..

发布时间：2022-01-02 17:59:41 python regex parsing nlp Python

将注意力层添加到 Seq2Seq 模型

我已经构建了一个编码器-解码器的 Seq2Seq 模型.我想给它添加一个注意力层.我尝试添加注意层通过这个但它没有帮助. 这是我没有注意的初始代码 # 编码器编码器输入=输入(形状=(无，))enc_emb = 嵌入(num_encoder_tokens，latent_dim，mask_zero = True)(encoder_inputs)编码器_lstm = LSTM(latent_ ..

发布时间：2022-01-02 17:59:32 python-3.x tensorflow keras nlp machine-translation 其他开发

通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站，想提取新闻标题、新闻摘要(第一段)等我插入了 webkit 解析器代码，以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容，我采用了文章的文本版本(减去 html 标签，webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本，这导致相似的文本被消除.这给了我内容减去常见的导航内容等尽管采用了上述方法，但我的最终文 ..

发布时间：2022-01-02 17:59:24 html artificial-intelligence nlp html-content-extraction text-extraction AI人工智能

如何编写 POS 正则表达式的 spacy 匹配器

Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子，我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的，如示例中基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划 ..

发布时间：2022-01-02 17:59:15 nlp spacy 其他开发

NLP:构建(小型)语料库，或“从哪里获得大量不太专业的英语文本文件?"

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用古腾堡项目书籍作为工作原型，并希望融入更多现代语言.最近的答案这里间接指出了一个很棒的usenet 电影评论存档，我没有想到，而且非常好.对于这个特定的程序，技术使用网档案或编程邮件列表会使结果倾斜并且难以分析，但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助.此外，非常感谢部分或可下载的研 ..

发布时间：2022-01-02 17:59:08 nlp linguistics corpus 其他开发

nlp相关内容