nlp相关内容
如果我在命令行中使用这样的查询 ./opennlp TokenNameFinder en-ner-person.bin "input.txt" "output.txt" 我会在 output.txt 中打印人名,但我想编写自己的模型,以便我应该打印自己的实体. 例如 icm2500 上的风险值是多少. prd_234 的交付将延迟到达. Watson 正在处理 router_3
..
我有一个函数,它使用斯坦福 NER 返回给定文本正文中的命名实体. def get_named_entities(text):load_ner_files()print text[:100] # 显示文字没问题text_split = text.split()打印 text_split # 显示拆分工作正常结果 = "命名实体 = ", st.tag(text_split)返回结果 我正在使用
..
我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo
..
我正在寻找的是一个可以用自然语言显示时间间隔的 Cocoa(或第三方)类,例如: 10 秒前 1 小时前 2 天前 你知道有什么可以帮助我完成这项任务而无需自己编写并陷入 if-else 地狱的吗? 解决方案 我最初指出的那个似乎不存在了,但正如指出的那样有 NSDate-TimeAgo,我没试过,但我觉得不错. 编辑:更新答案以指向现有代码
..
我有一个这样的数组(它只是一个小小的概述,但它有 2000 多行这样的): @list = (“外遇,选择,问题","原因,选择,matière",); 我想要这个输出: %te = (外遇 =>“选择",“问题",选择 =>"affaire", "question", "cause", "matière",问题 =>"事务", "选择",原因 =>"选择", "matière",材料 =>
..
我已成功检索到通过其他语义关系连接到基本同义词集的同义词集,如下所示: wn.synset('good.a.01').also_sees()出[63]:[Synset('best.a.01'),Synset('better.a.01'),Synset('favorable.a.01'),Synset('good.a.03'),Synset('obedient.a.01'),Synset('可敬
..
我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站,但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务.合理吗? 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案 作为前面的一般性评论,我想强调的是
..
我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙,我仍然不确定细节. 例如 假设词向量的维数为m;并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案 组合嵌入向量至少有三种常用的方法;(a) 求和,(b) 求和
..
我熟悉 R 中 tm 包中的词干和补全. 我试图想出一种快速而肮脏的方法来查找给定单词的所有变体(在某个语料库中).例如,如果我的输入是“白细胞"和“白细胞",我想得到“白细胞". 如果我现在必须这样做,我可能会选择这样的: 图书馆(tm)图书馆(RWeka)字典
..
我试图用NLTK做对的
..
是否有可能用 Java 替代 NLTK 来“动词化",如在这个问题中所见? 在动词/名词/形容词形式之间转换词 例如我想将出生转换为出生,因为在使用 Wordnet Similarity 时,算法没有显示出生和出生非常相似. 因此,我想将出生转换为出生,反之亦然.为了有更多相似的词. 你有什么建议?我找到了一些工具,但我不确定他们是否可以做到这一点:- NTLK(我猜只有蟒蛇)
..
我想将一个句子转换为一个单热向量数组.这些向量将是字母表的 one-hot 表示.它看起来像下面这样: "hello" # h=7, e=4 l=11 o=14 会变成 [[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0][0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
..
此问题遵循上一个问题,但有所不同.Synopse 的 delphi 连字 速度非常快,并且基于 OpenOffice 使用 TeX 连字的 libhnj 库. 一个简单的测试是: 如果我输入“发音",Synopse 连字符输出“pro=nun=ci=ation"(4 个可能的连字符或音节).//(不是“pro=nun=ci=a=tion",5 个连字符或音节). 我阅读了 2 篇
..
我似乎无法找到我的确切问题的答案.有人可以帮忙吗? 我的数据框(“df")的简化描述:它有两列:一列是一堆文本(“注释"),另一列是一个二进制变量,指示解析时间是否高于平均水平(“y"). 我对文本做了词袋处理: from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorize
..
如何使用非英语(孟加拉语)语言将数据输入到此数据库表中? 解决方案 正如@Tim 所指出的,您需要将表/数据库/列的 collation 更改为 UTF-8.首先检查您的database/table/column 的排序规则. 检查整理: 如何检查DATABASE的排序: SELECTdefault_character_set_name从information_schem
..
谁能给我建议一些查找和解析日期的方法(以任何格式,“Aug06"、“Aug2006"、“2008 年 8 月 2 日"、“2006 年 8 月 19 日"、“08-06"、“01-08-06") 在 python 中. 我遇到了这个问题,但它是在 perl...从字符串中提取格式不一致的日期(日期解析,NLP) 任何建议都会有所帮助. 解决方案 这会查找例句中的所有日期: 用
..
我已经构建了一个编码器-解码器的 Seq2Seq 模型.我想给它添加一个注意力层.我尝试添加注意层通过这个 但它没有帮助. 这是我没有注意的初始代码 # 编码器编码器输入=输入(形状=(无,))enc_emb = 嵌入(num_encoder_tokens,latent_dim,mask_zero = True)(encoder_inputs)编码器_lstm = LSTM(latent_
..
我正在抓取新闻网站,想提取新闻标题、新闻摘要(第一段)等 我插入了 webkit 解析器代码,以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除.这给了我内容减去常见的导航内容等 尽管采用了上述方法,但我的最终文
..
Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子,我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的,如示例中 基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划
..
有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用古腾堡项目书籍作为工作原型,并希望融入更多现代语言.最近的答案这里间接指出了一个很棒的usenet 电影评论存档,我没有想到,而且非常好.对于这个特定的程序,技术使用网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助.此外,非常感谢部分或可下载的研
..