analyzer相关内容
我需要一些有关为RavenDB开发自定义分析器的信息。 我正处于设置DLL的阶段,自定义分析器将非常简单,因为我只需要对StandardAnalyzer进行很小的修改。 我找到了这个页面: http://www.tomdupont.net/2013/05/alphanumeric-lucene-analyzer-for-ravendb.html 显然它不能开箱即用:-) 1)我必
..
我有一个 Java 项目,我已经从事了一段时间.设计开始时还不错,但随着更改的进行而逐渐退化.我正在寻找某种可以分析项目的工具.拥有一张不同类/方法的依赖关系图真是太好了.我觉得某些方法只是为了实现一个非常具体的目标.我想消除不必要的代码,让我的设计更好. 任何建议都会很棒!谢谢! 解决方案 您可能需要查看 JDepend.它是专门为解决您面临的问题而开发的. 作为一名顾问,我
..
..
我想构建自己的分析器,同时使用过滤器/标记器. 我的意思是,相同的字段是 Keyword(整个流作为单个标记)和小写 如果 KeywordAnalyzer仅使用,字段的值不区分大小写.如果我使用 LowerCaseTokenizer 或LowerCaseFilter 我要结合它们与其他执行相同操作的分析器 KeywordAnalyzer(不使用字母、空格、删除停用词等分隔) 问题
..
对于以下情况,我在 Google 或 ES 中都找不到完美的解决方案,希望有人可以在这里提供帮助. 假设“email"字段下存储了五个电子邮件地址: 1.{“电子邮件":“john.doe@gmail.com"}2. {“电子邮件":“john.doe@gmail.com, john.doe@outlook.com"}3. {“电子邮件":“hello-john.doe@outlook.c
..
有没有一种简单的方法可以使用 Lucene 的 Analyzer 的任何子类来解析/标记 String? 类似: String to_be_parsed = "车窗七";Analyzer 分析器 = new StandardAnalyzer(...);列表tokenized_string = analyzer.analyze(to_be_parsed); 解决方案 据我所知,
..
有人可以解释一下 Lucene 中不同分析器之间的区别吗?我收到了一个 maxClauseCount 异常,我知道我可以通过使用 KeywordAnalyzer 来避免这种情况,但我不想在不了解分析器相关问题的情况下从 StandardAnalyzer 进行更改.非常感谢. 解决方案 一般来说,Lucene 中的任何分析器都是分词器 + 词干分析器 + 停用词过滤器. Tokeniz
..
我的 Hibernate Search 分析器配置存在一些问题.我的索引实体之一(“医院")有一个字符串字段(“名称"),它可以包含长度为 1-40 的值.我希望能够通过仅搜索一个字符来找到一个实体(因为医院可能有单个字符名称). @Indexed(index = "HospitalIndex")@AnalyzerDef(名称=“ngram",标记器 = @TokenizerDef(工厂 = S
..
我正在尝试与一个包含少量 Roslyn 代码分析器的大型开源项目合作.当我打开解决方案时,Visual Studio 使用 ~35% CPU 大约 15 分钟.使用 PerfView,我发现在解决方案上运行的代码分析器使 Visual Studio 陷入困境. 我知道可以在每个项目的基础上禁用分析器,但此解决方案包含 100 多个项目,因此我不想一个一个地执行此操作. 我的问题:
..
我正在尝试在 Solr 架构中使用 ICUTokenizerFactory.这就是我定义 field 和 fieldType 的方式.
..
如何将 sklearn CountVectorizer 与“word"和“char"分析器一起使用?http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html 我可以分别按单词或字符提取文本特征,但如何创建charword_vectorizer?有没
..
这是一个有趣的话题.基本上,我有一个包含一些文本的图像.如何从图像中提取文本? 我已经尝试了很多东西,但是我所做的一切都很乏味,而且通常不起作用.我只是想知道是否有一种相当简单的方法可以做到这一点. 我发现了这个:http://sourceforge.net/projects/javaocr/.我已经尝试了几个小时,但我无法让它获取 Image 并将其转换为图像中的 String 文本
..
我在 NSDictionary 类别中有以下方法来进行深度复制,效果很好. 我刚刚从 Xcode 4.1 升级到 4.2,分析函数针对这段代码给出了两个分析器警告,如下所示: - (id)deepCopy;{id dict = [[NSMutableDictionary alloc] init];身份证复印件;for (id key in self){id object = [self o
..
我想指定一个分析器,为其命名,并在创建索引时在映射中使用该名称.我迷路了,我的 ES 实例总是向我返回错误消息. 这大概是我想做的: “设置":{“映射":{“阿尔法多克":{“特性": {"id": { "type": "string" },"alfefield": { "type": "string", "analyzer": "alfeanalyzer" }}}},“分析": {“分
..
我无法理解使用轮胎 gem 的 elasticsearch 中分析器的概念.我实际上是这些搜索概念的新手.这里有人可以帮我写一些参考文章或解释分析器的实际作用以及使用它们的原因吗? 我看到在 elasticsearch 中提到了不同的分析器,如关键字、标准、简单、滚雪球.没有分析仪的知识,我无法确定什么真正适合我的需要. 解决方案 让我给你一个简短的答案. 在索引时间和搜索时间
..
我在看http://euphonious-intuition.com/2012/08/more-complicated-mapping-in-elasticsearch/这解释了 ElasticSearch 分析器. 我不明白有关拥有不同搜索和索引分析器的部分.自定义映射的第二个例子是这样的: ->索引分析器是一个edgeNgram ->搜索分析器是: "full_name":{“筛选
..
我有一些在索引之前不想分析的 elasticsearch 字段.我已经读到正确的方法是改变索引映射.现在我的映射如下所示: {“测试" : {“一般的" : {“特性" : {“信息" : {“类型":“字符串"},“来源" : {“类型":“字符串"}}}}} 我希望它看起来像这样: {“测试" : {“一般的" : {“特性" : {“信息" : {“类型":“字符串",“索引":“未分
..
我不想分析 ElasticSearch 字段中的一个字段,即.e.它应该被逐字存储和比较.这些值将包含字母、数字、空格、破折号、斜线和其他字符. 如果我没有在我的这个字段的映射中提供一个分析器,默认情况下仍然使用一个标记器,它将我的逐字字符串破解成词块.我不想那样. 有没有一个超级简单的分析器,基本上不分析?或者有什么不同的方式来表示这个字段不应该被分析? 我只创建索引,我不做任
..
对于以下情况,我在 Google 或 ES 中都找不到完美的解决方案,希望有人能在这里提供帮助. 假设在“email"字段下存储了五个电子邮件地址: 1.{“电子邮件":“john.doe@gmail.com"}2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}3. {"email": "hello-john.doe@outlo
..
我们有一个符合 OData 的 API,可将部分全文搜索需求委托给 Elasticsearch 集群.由于 OData 表达式可能变得非常复杂,我们决定将它们简单地转换为等效的 Lucene 查询语法,并将其提供给 query_string 查询. 我们确实支持一些与文本相关的 OData 过滤器表达式,例如: startswith(field,'bla') endswith(fie
..