phrase相关内容

使用斯坦福解析器(CoreNLP)查找词组词头

我将使用 Stanford Corenlp 2013 来查找词组中心词.我看到了这个话题. 但是,我不清楚答案,我无法添加任何评论来继续该线程.所以,我很抱歉重复. 我目前拥有的是一个句子的解析树(使用斯坦福 Corenlp)(我也尝试过使用斯坦福 Corenlp 创建的 CONLL 格式).而我需要的正是名词短语的头部. 我不知道如何使用依赖项和解析树来提取名词短语的头部.我所 ..
发布时间:2022-01-02 17:21:09 Java开发

R 文本挖掘:计算特定单词在语料库中出现的次数?

我看到这个问题用其他语言回答过,但没有用 R 语言回答过. [专门用于 R 文本挖掘] 我有一组从语料库中获取的常用短语.现在我想搜索这些短语在另一个语料库中出现的次数. 有没有办法在 TM 包中做到这一点?(或其他相关包) 例如,假设我有一组短语,即从 CorpusA 获得的“标签".另一个语料库 CorpusB,包含数千个子文本.我想知道标签中的每个短语在 CorpusB 中 ..
发布时间:2021-12-30 16:18:35 其他开发

在 Python 3.3.2 中计算短语频率

我一直在检查网络上的不同来源,并尝试了各种方法,但只能找到如何计算唯一词的频率,而不是唯一短语的频率.到目前为止,我的代码如下: 导入集合进口重新想要 = 设置(['通货膨胀','黄金','银行'])cnt = collections.Counter()words = re.findall('\w+', open('02.2003.BenBernanke.txt').read().lower() ..
发布时间:2021-12-30 16:18:05 Python

Solr:使用 EdgeNGramFilterFactory 的精确短语查询

在 Solr (3.3) 中,是否可以通过 EdgeNGramFilterFactory 逐个字母搜索字段并且对短语查询敏感? 例如,我正在寻找一个字段,如果包含“contrat informatique",则会在用户键入时找到该字段: 对比 信息 控制 信息 “contrat informatique" “合同信息" 目前,我做了这样的事情: ..
发布时间:2021-12-30 08:58:34 其他开发

在 Lucene 中搜索短语

谁能给我举个例子,如何使用 Lucene.net 搜索词组? 假设我的索引中有一个文档,其字段为“name",值为“Jon Skeet".现在我希望能够在搜索“jon skeet"时找到该文档. 解决方案 您可以使用 如果您有一个短语列表要作为单个标记处理,则需要在分析器中处理它.例如,您想将“近东"、“中东"和“远东"视为单独的标记.您需要编写一个带有一些前瞻的分析器,以便它可以 ..
发布时间:2021-12-20 14:31:10 C#/.NET

从 TAG 格式创建更复杂的正则表达式

所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号) ..
发布时间:2021-11-26 16:07:18 其他开发

从 TAG 格式创建更复杂的正则表达式

所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号) ..
发布时间:2021-11-25 08:40:24 C#

匹配lucene整个字段的精确值

我正在创建Lucene 4.10.3索引. 我正在使用他的StandardAnalyzer. 字符串indexpath ="C:\\ TEMP";IndexWriterConfig iwc = newIndexWriterConfig(Version.LUCENE_4_10_3,new StandardAnalyzer(CharArraySet.EMPTY_SET));目录dir = FS ..
发布时间:2021-05-30 21:44:24 其他开发

Solr:使用EdgeNGramFilterFactory进行精确短语查询

在Solr(3.3)中,是否可以通过EdgeNGramFilterFactory逐个字母地搜索字段,并且还对短语查询敏感? 通过示例,我正在寻找一个字段,如果包含"contrat informatique",则该字段将在用户键入以下内容时找到: 对比 信息 contr 信息 “冲突信息" “对比信息" 目前,我做了这样的事情: ..
发布时间:2020-07-03 18:49:39 其他开发

在Python 3.3.2中计算词组频率

我一直在研究Web上的不同来源,并尝试了各种方法,但只能找到如何计算唯一单词而不是唯一短语的频率.到目前为止,我的代码如下: import collections import re wanted = set(['inflation', 'gold', 'bank']) cnt = collections.Counter() words = re.findall('\w+', open('0 ..
发布时间:2020-07-03 18:49:31 Python

如何在倒排索引结构中搜索短语查询?

如果我们要在倒排索引结构中搜索类似"t1 t2 t3"(t1,t2,t3必须排队)的查询, 我们应该怎么做? 1-首先我们搜索"t1"项,找到所有包含"t1"的文档,然后对"t2"然后是"t3"进行此操作.然后找到位置"t1","t2"和"t3"彼此相邻的文档. 2-首先,我们搜索"t1"项并找到包含"t1"的所有文档,然后在找到的所有文档中搜索"t2",然后,在此结果中,找到以下文档 ..
发布时间:2020-06-26 19:19:40 其他开发

从TAG格式创建更复杂的正则表达式

所以我无法在这里弄清楚我的正则表达式有什么问题。 (原始对话包含对这些TAG格式的说明,可以在以下位置找到:从TAG格式转换为语料库的正则表达式)。 我以这样的字符串开头: Arms_NNSfolded_VVN,_ , NNS也可以是NN,而VVN也可以是VBG。而且我只想查找具有相同标签的字符串以及其他字符串(NNS或NN后跟b VVN或VBG,后跟逗号)。 以下正则表达 ..
发布时间:2020-05-31 22:19:50 其他开发

使用NLTK在Python中计数短语

我正在尝试从文本文件中获取短语计数,但到目前为止,我只能获取单词计数(请参见下文).我需要扩展此逻辑以计算两个单词的短语出现在文本文件中的次数. 据我所知,短语可以使用NLTK的逻辑进行定义/分组.我相信collections函数是获得所需结果所需要的,但是我不确定如何通过阅读NLTK文档来实现它.任何提示/帮助将不胜感激. import re import string freque ..
发布时间:2020-05-18 01:19:21 Python

如何防止在NLTK中拆分特定的单词或词组和数字?

当我对分割特定单词,日期和数字的文本进行标记化时,我在文本匹配中遇到问题.如何在将NLTK中的单词标记化时防止“在家中奔跑",“步行30分钟"或“每天4次"之类的短语分裂? 它们不应导致: ['runs','in','my','family','4x','a','day'] 例如: 每天可以骑20-30分钟的自行车,效果很好! 给予: ['yes','20-30' ..
发布时间:2020-05-18 01:12:26 Python

我如何从MySQL中获取日期的月份

我希望能够使用以下语句从mysql中获取结果: SELECT * FROM table WHERE amount > 1000 但是我想获取限制在某个月和一年中的结果(基于用户的输入)...我试图这样做: SELECT * FROM table WHERE amount > 1000 AND dateStart = MONTH('$m') . ..
发布时间:2020-05-15 18:37:01 PHP

语料库的建立

我的文档为: doc1 = very good, very bad, you are great doc2 = very bad, good restaurent, nice place to visit 我想用,分隔语料,使我的最终DocumentTermMatrix变为: terms docs very good very bad ..
发布时间:2020-05-07 19:11:21 其他开发

使用Stanford Parser(CoreNLP)查找短语头

我将使用Stanford Corenlp 2013找到短语标题。我看到了这个主题。 但是,答案对我来说并不清楚,我无法添加任何评论来继续该线程。所以,我很抱歉重复。 我现在所拥有的是句子的解析树(使用Stanford Corenlp)(我也尝试过CONLL格式,由斯坦福Corenlp创建。而我所需要的只是名词短语的头部。 我不知道如何使用依赖关系和解析树来提取名词短语的头部。 ..
发布时间:2018-12-04 12:23:57 Java开发

Solr:索引短语短于查询时的短语搜索

如果索引字段是查询短语的一部分,是否可以找到文档? 它很容易找到“快速棕色狐狸跳跃搜索“棕色狐狸”或“懒狗”时,搜索“懒惰的狗”。但是,如果我需要做到这一点,反之亦然? 以下是我的情况:我在“ brown fox ”文档中有一个简短字段。或“懒狗”“,我希望通过搜索”快速棕色狐狸“或“。 注意:它应该是一个词组匹配,因此在查询中使所有可选项无效。像“ brown dog ”这样的 ..
发布时间:2018-04-16 16:22:33 其他数据库