nlp相关内容

在 openNLP 中编写我们自己的模型

如果我在命令行中使用这样的查询 ./opennlp TokenNameFinder en-ner-person.bin "input.txt" "output.txt" 我会在 output.txt 中打印人名,但我想编写自己的模型,以便我应该打印自己的实体. 例如 icm2500 上的风险值是多少. prd_234 的交付将延迟到达. Watson 正在处理 router_3 ..
发布时间:2022-01-02 18:02:09 Java开发

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..
发布时间:2022-01-02 18:01:41 AI人工智能

Cocoa 中是否有一些功能可以用自然语言显示时间间隔?

我正在寻找的是一个可以用自然语言显示时间间隔的 Cocoa(或第三方)类,例如: 10 秒前 1 小时前 2 天前 你知道有什么可以帮助我完成这项任务而无需自己编写并陷入 if-else 地狱的吗? 解决方案 我最初指出的那个似乎不存在了,但正如指出的那样有 NSDate-TimeAgo,我没试过,但我觉得不错. 编辑:更新答案以指向现有代码 ..
发布时间:2022-01-02 18:01:34 移动开发

伯特针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站,但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务.合理吗? 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案 作为前面的一般性评论,我想强调的是 ..

如何连接词向量形成句子向量

我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙,我仍然不确定细节. 例如 假设词向量的维数为m;并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案 组合嵌入向量至少有三种常用的方法;(a) 求和,(b) 求和 ..
发布时间:2022-01-02 18:00:48 AI人工智能

在 Java 中将单词转换为名词/形容词/动词形式

是否有可能用 Java 替代 NLTK 来“动词化",如在这个问题中所见? 在动词/名词/形容词形式之间转换词 例如我想将出生转换为出生,因为在使用 Wordnet Similarity 时,算法没有显示出生和出生非常相似. 因此,我想将出生转换为出生,反之亦然.为了有更多相似的词. 你有什么建议?我找到了一些工具,但我不确定他们是否可以做到这一点:- NTLK(我猜只有蟒蛇) ..
发布时间:2022-01-02 18:00:24 Java开发

为什么 Synopse 断字代码给出与 TeX 不同的结果?

此问题遵循上一个问题,但有所不同.Synopse 的 delphi 连字 速度非常快,并且基于 OpenOffice 使用 TeX 连字的 libhnj 库. 一个简单的测试是: 如果我输入“发音",Synopse 连字符输出“pro=nun=ci=ation"(4 个可能的连字符或音节).//(不是“pro=nun=ci=a=tion",5 个连字符或音节). 我阅读了 2 篇 ..
发布时间:2022-01-02 18:00:05 其他开发

Python 中的 NLP:向量化后从 SelectKBest 中获取词名

我似乎无法找到我的确切问题的答案.有人可以帮忙吗? 我的数据框(“df")的简化描述:它有两列:一列是一堆文本(“注释"),另一列是一个二进制变量,指示解析时间是否高于平均水平(“y"). 我对文本做了词袋处理: from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorize ..
发布时间:2022-01-02 17:59:56 Python

如何在 Python 中使用 NLP、RegEx 查找句子中的日期

谁能给我建议一些查找和解析日期的方法(以任何格式,“Aug06"、“Aug2006"、“2008 年 8 月 2 日"、“2006 年 8 月 19 日"、“08-06"、“01-08-06") 在 python 中. 我遇到了这个问题,但它是在 perl...从字符串中提取格式不一致的日期(日期解析,NLP) 任何建议都会有所帮助. 解决方案 这会查找例句中的所有日期: 用 ..
发布时间:2022-01-02 17:59:41 Python

将注意力层添加到 Seq2Seq 模型

我已经构建了一个编码器-解码器的 Seq2Seq 模型.我想给它添加一个注意力层.我尝试添加注意层通过这个 但它没有帮助. 这是我没有注意的初始代码 # 编码器编码器输入=输入(形状=(无,))enc_emb = 嵌入(num_encoder_tokens,latent_dim,mask_zero = True)(encoder_inputs)编码器_lstm = LSTM(latent_ ..
发布时间:2022-01-02 17:59:32 其他开发

通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站,想提取新闻标题、新闻摘要(第一段)等 我插入了 webkit 解析器代码,以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除.这给了我内容减去常见的导航内容等 尽管采用了上述方法,但我的最终文 ..

如何编写 POS 正则表达式的 spacy 匹配器

Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子,我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的,如示例中 基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划 ..
发布时间:2022-01-02 17:59:15 其他开发

NLP:构建(小型)语料库,或“从哪里获得大量不太专业的英语文本文件?"

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用古腾堡项目书籍作为工作原型,并希望融入更多现代语言.最近的答案这里间接指出了一个很棒的usenet 电影评论存档,我没有想到,而且非常好.对于这个特定的程序,技术使用网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助.此外,非常感谢部分或可下载的研 ..
发布时间:2022-01-02 17:59:08 其他开发