n-gram相关内容
我正在寻找使用现有库(difflib、fuzzywuzzy、python-levenshtein)的库或方法,以便在文本(corpus)中查找字符串(query)的最匹配项 我开发了一个基于difflib的方法,将corpus拆分成大小为n(长度为query)的ngram。 import difflib from nltk.util import ngrams def get_bes
..
我的 Hibernate Search 分析器配置存在一些问题.我的索引实体之一(“医院")有一个字符串字段(“名称"),它可以包含长度为 1-40 的值.我希望能够通过仅搜索一个字符来找到一个实体(因为医院可能有单个字符名称). @Indexed(index = "HospitalIndex")@AnalyzerDef(名称=“ngram",标记器 = @TokenizerDef(工厂 = S
..
我想使用 ElasticSearch 来搜索文件名(不是文件的内容).因此我需要找到文件名的一部分(完全匹配,没有模糊搜索). 示例: 我有以下名称的文件: My_first_file_created_at_2012.01.13.docMy_second_file_created_at_2012.01.13.pdf另一个文件.txtAnd_again_another_file.docxf
..
我在 SO 上找到了这个解决方案来检测字符串中的 n-gram:(此处:从句子生成 N-gram) import java.util.*;公共类测试{公共静态列表ngrams(int n, String str) {列表ngrams = new ArrayList();String[] words = str.split(" ");for (int i = 0; i
..
至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到,当文本包含拼写错误时,字符级 n-gram 比单词级 n-gram 更受欢迎,因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑?
..
输入文本总是有1~3个形容词和一个名词的菜名列表 输入 泰式冰茶香辣炸鸡甜辣椒猪肉泰式咖喱鸡 输出: 泰国茶,冰茶辣鸡,炸鸡甜猪肉,辣椒猪肉泰式鸡肉,咖喱鸡,泰式咖喱 基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成双元组. 我想用 spacy 或 nltk 来实现这一点 解决方案 我使用了带有英文模型的 spacy 2.0.找到名词和“非名词"来解析输入,然
..
我正在使用 NLTK 在语料库中搜索 n-gram,但在某些情况下需要很长时间.我注意到计算 n-grams 在其他包中并不是一个不常见的功能(显然 Haystack 有一些功能).这是否意味着如果我放弃 NLTK,有可能更快地在我的语料库中查找 n-gram?如果是这样,我可以用什么来加快速度? 解决方案 由于您没有指明您想要单词级还是字符级 n-gram,我将假设前者,不失一般性.
..
python 中哪个 ngram 实现最快? 我试图分析 nltk 与 scott 的 zip (http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/): from nltk.util import ngrams as nltkngram导入这个,时间def zipngram(text,
..
我需要为包含如下文本的文本文件计算 Unigrams、BiGrams 和 Trigrams: “仅在美国,囊性纤维化就影响了 30,000 名儿童和年轻人吸入盐水雾可以减少充满囊性纤维化患者气道的脓液和感染,尽管副作用包括令人讨厌的咳嗽和刺鼻的味道.这是本周出版的《新英格兰医学杂志》上发表的两项研究的结论." 我开始使用 Python 并使用以下代码: #!/usr/bin/env
..
如何生成一个像这样的字符串的 n-gram: " String Input="这是我的车." 我想用这个输入生成 n-gram: 输入 Ngram 大小 = 3 输出应该是: 这个是我的车这是是我的我的车这是我的是我的车 在 Java 中给出一些想法,如何实现它或者是否有任何可用的库. 我正在尝试使用 this NGramTokenizer 但它给出了 n-gram 的字符序列
..
我们想运行一个查询,该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行,查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语),查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集 我们如何在 Google BigQuery 中编写此查询? 数据集只是一长
..
我想在我的表中找到最常见的二元组(词对).如何使用 BigQuery 执行此操作? 解决方案 现在有了一个新函数:ML.NGRAMS(): WITH data AS (SELECT REGEXP_EXTRACT_ALL(LOWER(title), '[a-z]+') title_arr来自`fh-bigquery.reddit_posts.2019_08`WHERE title LIKE
..
Drupal 的核心搜索模块,只搜索关键字,例如“三明治".我可以使用子字符串进行搜索,例如“sandw"并返回我的三明治结果? 也许有一个插件可以做到这一点? 解决方案 最近我做了一个 patch 为 Drupal 的核心搜索模块提供部分搜索(又名 n-gram 搜索) 能力.这是针对 Drupal 6.15 & 进行测试的.6.16 版本.您可能想了解补丁. 另一方面,您可
..
我想使用 HiveQL 创建一个 n-gram 列表.我的想法是使用带有前瞻和拆分功能的正则表达式 - 但是这不起作用: select split('这是我的句子', '(\\S+) +(?=(\\S+))'); 输入是表格的一列 |句子||-------------------------||这是我的句子||这是另一个句子| 输出应该是: ["这是","是我的","我的句子"][“这是
..
我使用 sklearn.feature_extraction.text.CountVectorizer 来计算n-gram.示例: import sklearn.feature_extraction.text # 仅供参考 http://scikit-learn.org/stable/install.htmlngram_size = 4string = ["我真的很喜欢 python,它非常棒.
..
我想使用 ElasticSearch 来搜索文件名(不是文件的内容).因此我需要找到文件名的一部分(完全匹配,没有模糊搜索). 示例: 我有以下名称的文件: My_first_file_created_at_2012.01.13.docMy_second_file_created_at_2012.01.13.pdf另一个文件.txtAnd_again_another_file.docxf
..
我有一个 R 代码,它可以运行并执行我想要的操作,但是它需要很长时间才能运行.下面是代码的作用和代码本身的解释. 我有一个包含街道地址(字符串)的 200000 行向量:数据.示例: >数据[150000,]地址"15 rue andre lalande Residence Marguerite yourcenar 91000 evry France" 我有一个 131x2 字符串元素的
..
我有一个已经被标记化的文档列表: dat
..
目的:我想使用包含复合词或bigrams的字典创建一个术语-文档矩阵em>,作为一些关键字. Web 搜索: 作为文本挖掘和 R 中的 tm 包的新手,我访问了网络以找出如何做这个.以下是我找到的一些相关链接: tm-package 网站上的常见问题 找到 2 &使用 r tm 包的 3 个词组 用 r 中的 tm 包计数器 ngram r 中多个术语的findassocs
..
我正在尝试为语料库制作 2 个文档术语矩阵,一个带有 unigrams,一个带有 bigrams.但是,bigram 矩阵目前与 unigram 矩阵完全相同,我不确定为什么. 代码: docs 我也尝试使用 ngram 包中的 ngram(x, n=2) 作为标记器,但这也不起作用.如何修复二元标记化? 解决方案 tokenizer 选项似乎不适用于 Corpus (Simpl
..