analyzer - IT屋-程序员软件开发技术分享社区

RavenDB的自定义分析器

我需要一些有关为RavenDB开发自定义分析器的信息。我正处于设置DLL的阶段，自定义分析器将非常简单，因为我只需要对StandardAnalyzer进行很小的修改。我找到了这个页面： http://www.tomdupont.net/2013/05/alphanumeric-lucene-analyzer-for-ravendb.html 显然它不能开箱即用：-) 1)我必 ..

发布时间：2022-08-31 21:31:04 ravendb analyzer 其他开发

Java 类和方法的依赖关系图

我有一个 Java 项目，我已经从事了一段时间.设计开始时还不错，但随着更改的进行而逐渐退化.我正在寻找某种可以分析项目的工具.拥有一张不同类/方法的依赖关系图真是太好了.我觉得某些方法只是为了实现一个非常具体的目标.我想消除不必要的代码，让我的设计更好. 任何建议都会很棒！谢谢！解决方案您可能需要查看 JDepend.它是专门为解决您面临的问题而开发的. 作为一名顾问，我 ..

发布时间：2022-01-15 22:58:49 java dependencies analyzer Java开发

无法在 Solr 中使用 ICUTokenizerFactory

..

发布时间：2022-01-15 12:51:15 solr lucene schema tokenize analyzer 其他开发

KeywordAnalyzer 和 LowerCaseFilter/LowerCaseTokenizer

我想构建自己的分析器，同时使用过滤器/标记器. 我的意思是，相同的字段是 Keyword(整个流作为单个标记)和小写如果 KeywordAnalyzer仅使用，字段的值不区分大小写.如果我使用 LowerCaseTokenizer 或LowerCaseFilter 我要结合它们与其他执行相同操作的分析器 KeywordAnalyzer(不使用字母、空格、删除停用词等分隔) 问题 ..

发布时间：2022-01-15 12:38:37 java lucene customization analyzer Java开发

电子邮件的 ElasticSearch 分析器和标记器

对于以下情况，我在 Google 或 ES 中都找不到完美的解决方案，希望有人可以在这里提供帮助. 假设“email"字段下存储了五个电子邮件地址: 1.{“电子邮件":“john.doe@gmail.com"}2. {“电子邮件":“john.doe@gmail.com, john.doe@outlook.com"}3. {“电子邮件":“hello-john.doe@outlook.c ..

发布时间：2022-01-15 12:24:12 email elasticsearch lucene tokenize analyzer 其他开发

如何使用 Lucene Analyzer 标记字符串?

有没有一种简单的方法可以使用 Lucene 的 Analyzer 的任何子类来解析/标记 String? 类似: String to_be_parsed = "车窗七";Analyzer 分析器 = new StandardAnalyzer(...);列表tokenized_string = analyzer.analyze(to_be_parsed); 解决方案据我所知， ..

发布时间：2022-01-15 12:23:53 java lucene tokenize analyzer Java开发

Lucene 分析器的比较

有人可以解释一下 Lucene 中不同分析器之间的区别吗?我收到了一个 maxClauseCount 异常，我知道我可以通过使用 KeywordAnalyzer 来避免这种情况，但我不想在不了解分析器相关问题的情况下从 StandardAnalyzer 进行更改.非常感谢. 解决方案一般来说，Lucene 中的任何分析器都是分词器 + 词干分析器 + 停用词过滤器. Tokeniz ..

发布时间：2022-01-15 12:23:44 lucene analyzer 其他开发

休眠搜索 |具有 minGramSize 1 的 ngram 分析器

我的 Hibernate Search 分析器配置存在一些问题.我的索引实体之一(“医院")有一个字符串字段(“名称")，它可以包含长度为 1-40 的值.我希望能够通过仅搜索一个字符来找到一个实体(因为医院可能有单个字符名称). @Indexed(index = "HospitalIndex")@AnalyzerDef(名称=“ngram"，标记器 = @TokenizerDef(工厂 = S ..

发布时间：2022-01-15 12:21:47 lucene hibernate-search n-gram analyzer 其他开发

如何禁用所有 Roslyn 代码分析器?

我正在尝试与一个包含少量 Roslyn 代码分析器的大型开源项目合作.当我打开解决方案时，Visual Studio 使用 ~35% CPU 大约 15 分钟.使用 PerfView，我发现在解决方案上运行的代码分析器使 Visual Studio 陷入困境. 我知道可以在每个项目的基础上禁用分析器，但此解决方案包含 100 多个项目，因此我不想一个一个地执行此操作. 我的问题: ..

发布时间：2021-12-30 18:16:33 c# visual-studio visual-studio-2015 roslyn analyzer C#/.NET

不能在 Solr 中使用 ICUTokenizerFactory

我正在尝试在 Solr 架构中使用 ICUTokenizerFactory.这就是我定义 field 和 fieldType 的方式. ..

发布时间：2021-12-30 08:32:16 solr lucene schema tokenize analyzer 其他开发

如何将 sklearn CountVectorizer 与“word"和“char"分析器一起使用?- Python

如何将 sklearn CountVectorizer 与“word"和“char"分析器一起使用?http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html 我可以分别按单词或字符提取文本特征，但如何创建charword_vectorizer?有没 ..

发布时间：2021-12-25 14:41:37 python machine-learning scikit-learn analyzer text-analysis AI人工智能

将图像转换为文本 - Java

这是一个有趣的话题.基本上，我有一个包含一些文本的图像.如何从图像中提取文本? 我已经尝试了很多东西，但是我所做的一切都很乏味，而且通常不起作用.我只是想知道是否有一种相当简单的方法可以做到这一点. 我发现了这个:http://sourceforge.net/projects/javaocr/.我已经尝试了几个小时，但我无法让它获取 Image 并将其转换为图像中的 String 文本 ..

发布时间：2021-12-22 19:58:32 java image text analyzer Java开发

字典的深层副本在 Xcode 4.2 中给出了分析错误

我在 NSDictionary 类别中有以下方法来进行深度复制，效果很好. 我刚刚从 Xcode 4.1 升级到 4.2，分析函数针对这段代码给出了两个分析器警告，如下所示: - (id)deepCopy;{id dict = [[NSMutableDictionary alloc] init];身份证复印件；for (id key in self){id object = [self o ..

发布时间：2021-12-17 22:34:33 cocoa xcode4.2 deep-copy analyzer clang-static-analyzer 移动开发

在 ElasticSearch 中创建索引时如何指定分析器

我想指定一个分析器，为其命名，并在创建索引时在映射中使用该名称.我迷路了，我的 ES 实例总是向我返回错误消息. 这大概是我想做的: “设置":{“映射":{“阿尔法多克":{“特性": {"id": { "type": "string" },"alfefield": { "type": "string", "analyzer": "alfeanalyzer" }}}},“分析": {“分 ..

发布时间：2021-12-13 12:35:03 indexing mapping elasticsearch analyzer 其他开发

elasticsearch 中的分析器

我无法理解使用轮胎 gem 的 elasticsearch 中分析器的概念.我实际上是这些搜索概念的新手.这里有人可以帮我写一些参考文章或解释分析器的实际作用以及使用它们的原因吗? 我看到在 elasticsearch 中提到了不同的分析器，如关键字、标准、简单、滚雪球.没有分析仪的知识，我无法确定什么真正适合我的需要. 解决方案让我给你一个简短的答案. 在索引时间和搜索时间 ..

发布时间：2021-12-13 12:00:55 elasticsearch analyzer tire 其他开发

弹性搜索- search_analyzer 与 index_analyzer

我在看http://euphonious-intuition.com/2012/08/more-complicated-mapping-in-elasticsearch/这解释了 ElasticSearch 分析器. 我不明白有关拥有不同搜索和索引分析器的部分.自定义映射的第二个例子是这样的: ->索引分析器是一个edgeNgram ->搜索分析器是: "full_name":{“筛选 ..

发布时间：2021-12-13 11:47:40 search elasticsearch analyzer 其他开发

使用 java api 配置 elasticsearch 映射

我有一些在索引之前不想分析的 elasticsearch 字段.我已经读到正确的方法是改变索引映射.现在我的映射如下所示: {“测试" : {“一般的" : {“特性" : {“信息" : {“类型":“字符串"},“来源" : {“类型":“字符串"}}}}} 我希望它看起来像这样: {“测试" : {“一般的" : {“特性" : {“信息" : {“类型":“字符串"，“索引":“未分 ..

发布时间：2021-12-13 11:42:03 java elasticsearch mapping analyzer Java开发

如何在 ElasticSearch 中不进行分析?

我不想分析 ElasticSearch 字段中的一个字段，即.e.它应该被逐字存储和比较.这些值将包含字母、数字、空格、破折号、斜线和其他字符. 如果我没有在我的这个字段的映射中提供一个分析器，默认情况下仍然使用一个标记器，它将我的逐字字符串破解成词块.我不想那样. 有没有一个超级简单的分析器，基本上不分析?或者有什么不同的方式来表示这个字段不应该被分析? 我只创建索引，我不做任 ..

发布时间：2021-12-13 11:28:45 elasticsearch token analyzer verbatim 其他开发

电子邮件的 ElasticSearch Analyzer 和 Tokenizer

对于以下情况，我在 Google 或 ES 中都找不到完美的解决方案，希望有人能在这里提供帮助. 假设在“email"字段下存储了五个电子邮件地址: 1.{“电子邮件":“john.doe@gmail.com"}2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}3. {"email": "hello-john.doe@outlo ..

发布时间：2021-12-12 09:34:46 email elasticsearch lucene tokenize analyzer 其他开发

如何明智地结合 shingles 和 edgeNgram 来提供灵活的全文搜索?

我们有一个符合 OData 的 API，可将部分全文搜索需求委托给 Elasticsearch 集群.由于 OData 表达式可能变得非常复杂，我们决定将它们简单地转换为等效的 Lucene 查询语法，并将其提供给 query_string 查询. 我们确实支持一些与文本相关的 OData 过滤器表达式，例如: startswith(field,'bla') endswith(fie ..

发布时间：2021-12-03 08:05:53 regex elasticsearch lucene odata analyzer 其他开发

analyzer相关内容