phrase相关内容
我将使用 Stanford Corenlp 2013 来查找词组中心词.我看到了这个话题. 但是,我不清楚答案,我无法添加任何评论来继续该线程.所以,我很抱歉重复. 我目前拥有的是一个句子的解析树(使用斯坦福 Corenlp)(我也尝试过使用斯坦福 Corenlp 创建的 CONLL 格式).而我需要的正是名词短语的头部. 我不知道如何使用依赖项和解析树来提取名词短语的头部.我所
..
我看到这个问题用其他语言回答过,但没有用 R 语言回答过. [专门用于 R 文本挖掘] 我有一组从语料库中获取的常用短语.现在我想搜索这些短语在另一个语料库中出现的次数. 有没有办法在 TM 包中做到这一点?(或其他相关包) 例如,假设我有一组短语,即从 CorpusA 获得的“标签".另一个语料库 CorpusB,包含数千个子文本.我想知道标签中的每个短语在 CorpusB 中
..
我一直在检查网络上的不同来源,并尝试了各种方法,但只能找到如何计算唯一词的频率,而不是唯一短语的频率.到目前为止,我的代码如下: 导入集合进口重新想要 = 设置(['通货膨胀','黄金','银行'])cnt = collections.Counter()words = re.findall('\w+', open('02.2003.BenBernanke.txt').read().lower()
..
在 Solr (3.3) 中,是否可以通过 EdgeNGramFilterFactory 逐个字母搜索字段并且对短语查询敏感? 例如,我正在寻找一个字段,如果包含“contrat informatique",则会在用户键入时找到该字段: 对比 信息 控制 信息 “contrat informatique" “合同信息" 目前,我做了这样的事情:
..
谁能给我举个例子,如何使用 Lucene.net 搜索词组? 假设我的索引中有一个文档,其字段为“name",值为“Jon Skeet".现在我希望能够在搜索“jon skeet"时找到该文档. 解决方案 您可以使用 如果您有一个短语列表要作为单个标记处理,则需要在分析器中处理它.例如,您想将“近东"、“中东"和“远东"视为单独的标记.您需要编写一个带有一些前瞻的分析器,以便它可以
..
所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号)
..
所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号)
..
我的最终结果是: (12*u)/5 + (12*4^(3/2))/13 - 1484/34 如何将这个短语简化为:2.4000u - 36.2624? 以及如何自动找到你?(u = 15.1093) 解决方案 simplify() 和 solve() 不能正常工作: a = (12*u)/5 + (12*4^(3/2))/13 - 1484/34 a =
..
我正在创建Lucene 4.10.3索引. 我正在使用他的StandardAnalyzer. 字符串indexpath ="C:\\ TEMP";IndexWriterConfig iwc = newIndexWriterConfig(Version.LUCENE_4_10_3,new StandardAnalyzer(CharArraySet.EMPTY_SET));目录dir = FS
..
在Solr(3.3)中,是否可以通过EdgeNGramFilterFactory逐个字母地搜索字段,并且还对短语查询敏感? 通过示例,我正在寻找一个字段,如果包含"contrat informatique",则该字段将在用户键入以下内容时找到: 对比 信息 contr 信息 “冲突信息" “对比信息" 目前,我做了这样的事情:
..
我一直在研究Web上的不同来源,并尝试了各种方法,但只能找到如何计算唯一单词而不是唯一短语的频率.到目前为止,我的代码如下: import collections import re wanted = set(['inflation', 'gold', 'bank']) cnt = collections.Counter() words = re.findall('\w+', open('0
..
如果我们要在倒排索引结构中搜索类似"t1 t2 t3"(t1,t2,t3必须排队)的查询, 我们应该怎么做? 1-首先我们搜索"t1"项,找到所有包含"t1"的文档,然后对"t2"然后是"t3"进行此操作.然后找到位置"t1","t2"和"t3"彼此相邻的文档. 2-首先,我们搜索"t1"项并找到包含"t1"的所有文档,然后在找到的所有文档中搜索"t2",然后,在此结果中,找到以下文档
..
所以我无法在这里弄清楚我的正则表达式有什么问题。 (原始对话包含对这些TAG格式的说明,可以在以下位置找到:从TAG格式转换为语料库的正则表达式)。 我以这样的字符串开头: Arms_NNSfolded_VVN,_ , NNS也可以是NN,而VVN也可以是VBG。而且我只想查找具有相同标签的字符串以及其他字符串(NNS或NN后跟b VVN或VBG,后跟逗号)。 以下正则表达
..
我正在尝试从文本文件中获取短语计数,但到目前为止,我只能获取单词计数(请参见下文).我需要扩展此逻辑以计算两个单词的短语出现在文本文件中的次数. 据我所知,短语可以使用NLTK的逻辑进行定义/分组.我相信collections函数是获得所需结果所需要的,但是我不确定如何通过阅读NLTK文档来实现它.任何提示/帮助将不胜感激. import re import string freque
..
当我对分割特定单词,日期和数字的文本进行标记化时,我在文本匹配中遇到问题.如何在将NLTK中的单词标记化时防止“在家中奔跑",“步行30分钟"或“每天4次"之类的短语分裂? 它们不应导致: ['runs','in','my','family','4x','a','day'] 例如: 每天可以骑20-30分钟的自行车,效果很好! 给予: ['yes','20-30'
..
如果我想获得与每个单词相对应的词组标签,该如何获得? 例如: 在这句话中, 我的狗也喜欢吃香肠. 我可以在Stanford NLP中获得一个解析树,例如 (ROOT (S (NP (PRP$ My) (NN dog)) (ADVP (RB also)) (VP (VBZ likes) (NP (JJ eating) (NN sausage))) (. .))) 在
..
我希望能够使用以下语句从mysql中获取结果: SELECT * FROM table WHERE amount > 1000 但是我想获取限制在某个月和一年中的结果(基于用户的输入)...我试图这样做: SELECT * FROM table WHERE amount > 1000 AND dateStart = MONTH('$m') .
..
我的文档为: doc1 = very good, very bad, you are great doc2 = very bad, good restaurent, nice place to visit 我想用,分隔语料,使我的最终DocumentTermMatrix变为: terms docs very good very bad
..
我将使用Stanford Corenlp 2013找到短语标题。我看到了这个主题。 但是,答案对我来说并不清楚,我无法添加任何评论来继续该线程。所以,我很抱歉重复。 我现在所拥有的是句子的解析树(使用Stanford Corenlp)(我也尝试过CONLL格式,由斯坦福Corenlp创建。而我所需要的只是名词短语的头部。 我不知道如何使用依赖关系和解析树来提取名词短语的头部。
..
如果索引字段是查询短语的一部分,是否可以找到文档? 它很容易找到“快速棕色狐狸跳跃搜索“棕色狐狸”或“懒狗”时,搜索“懒惰的狗”。但是,如果我需要做到这一点,反之亦然? 以下是我的情况:我在“ brown fox ”文档中有一个简短字段。或“懒狗”“,我希望通过搜索”快速棕色狐狸“或“。 注意:它应该是一个词组匹配,因此在查询中使所有可选项无效。像“ brown dog ”这样的
..