search相关内容

在 solr 6.0 中找不到 schema.xml 文件,所以要配置它,我应该添加一个新文件,还是会自动发生?

我在 solR 中创建了一个名为“testcore"的新核心,但是在 solR 6.0 中我无法在 conf 文件夹中找到 Schema.xml 文件,所以我应该手动创建它还是它会自动配置自己? 我想从示例文档中索引一个示例,所以要索引它我应该提到 Schema.xml 文档,否则它会自动发生,因为 solR 6 是无模式的. 我正在努力学习本教程 https://example ..
发布时间:2022-01-15 13:16:21 服务器开发

Elasticsearch 中的嵌套 vs 对象

有人能解释一下 Elasticsearch 文档中“对象"和“嵌套"字段的区别吗? 我知道默认情况下字段被定义为对象.我也知道我可以使用这样的点访问对象字段:my_field.name、my_field.title 等. 对象文档:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping- ..
发布时间:2022-01-15 13:15:30 其他开发

如何使用与 Solr 的 n-gram 近似匹配?

我们有一个电影和连续剧数据库,并且由于数据来自许多不同可靠性的来源,我们希望能够对剧集的标题进行模糊字符串匹配.我们在应用程序中使用 Solr 进行搜索,但默认匹配机制在单词级别上运行,这对于短字符串(如标题)来说不够好 我过去使用过 n-gram 近似匹配,我很高兴发现 Lucene(和 Solr)支持开箱即用的东西.不幸的是,我无法正确配置它. 我认为我需要一个特殊的字段类型,所以 ..
发布时间:2022-01-15 13:14:41 其他开发

ElasticSearch 默认评分机制

我正在寻找的是关于 ElasticSearch (Lucene) 的默认评分机制如何真正起作用的简单、清晰的解释.我的意思是,它是使用 Lucene 评分,还是使用自己的评分? 例如,我想通过“名称"字段搜索文档.我使用 .NET NEST 客户端来编写我的查询.让我们考虑这种类型的查询: IQueryResponsequeryResult = client.Sea ..
发布时间:2022-01-15 13:12:50 其他开发

Lucene.Net 模糊搜索速度

很抱歉,希望能得到有Lucene经验的人的帮助. 现在我们在应用程序中使用 Lucene.Net 3.0.3 来索引和搜索约 2.500.000 个项目.每个实体包含27个可搜索字段,以这种方式添加到索引中:new Field(key, value, Field.Store.YES, Field.Index.ANALYZED)) 现在我们有两个搜索选项: 使用模糊搜索仅搜索 4 ..
发布时间:2022-01-15 13:06:18 C#/.NET

在 Java api 中的 Solr 搜索中需要搜索的文本和围绕它的几行

我正在使用 solr 7.7.2,我使用 solrj 在 Solr 中编写了一个 Java 程序,该程序在一个巨大的文本文件中搜索一个单词.我使用以下代码来显示代表整个文本的搜索结果. SolrQuery 参数 = new SolrQuery();params.setQuery("content:word for search"); 如何在该行中只显示一行文字? 所有代码都是这样的 p ..
发布时间:2022-01-15 13:06:10 Java开发

显示来自 Lucene 搜索结果的示例文本

目前,我正在使用 Lucene 版本 3.0.2 创建一个类似于字典的搜索应用程序.我要显示的对象之一是一种“示例",Lucene 会在其中查找书中的一个单词,然后显示使用这些单词的句子. 我一直在阅读 Lucene in Action 这本书,其中提到了类似的内容,但通过它我找不到其他提及.这是你可以用 Lucene 做的事情吗?如果是,你是怎么做到的? 解决方案 我相信您正在寻找 ..
发布时间:2022-01-15 13:05:07 Java开发

在 Lucene 中获取每个文档的搜索词 Hits(出现次数)

任何人都可以建议我在 Lucene 中获取每个文档的 Hits(没有出现次数)的最佳方法吗?.. 解决方案 Lucene 使用基于字段而不是基于文档的索引.为了获得每个文档的术语计数: 使用 IndexReader.document() 和 isDeleted(). 在文档 d 中,使用 Document.getFields(). 对于每个字段 f,使用 getTermFreqV ..
发布时间:2022-01-15 13:04:14 其他开发

Solr - 最常见的搜索词

我正在尝试组织一个 solr 搜索引擎.我已经设置了拼写错误系统和建议. 但是我似乎无法找到如何检索 solr/lucene 中搜索最多的前 10 个单词/术语/关键字.我怎样才能得到这个?我想在我的主页上显示这些. 解决方案 Solr 不提供这种开箱即用的功能.有 StatsComponent,它为您提供各种统计信息,但所有这些都只是数字. 根据您访问 solr 的方式(直接 ..
发布时间:2022-01-15 13:00:03 其他开发

使用 lucene 进行多语言搜索

我正在进行多语言搜索.并且我会使用 lucene 作为工具来做这件事. 我已经有翻译的内容了,每个文档会有 3 或 4 种语言. 对于索引和搜索,可能有 4 种策略,对于每个文档/内容: 每种语言都在不同的索引/目录中编入索引. 每种语言都在不同的文档中编入索引,但在同一个索引中. 每种语言都被索引在不同的字段中,但在同一个文档中. 所有语言都被索引在文档的同一个字段中 ..
发布时间:2022-01-15 12:53:09 其他开发

为什么 Lucene 不支持对现有文档进行任何类型的更新

我的用例涉及索引一个 Lucene 文档,然后在以后的多个场合添加指向该现有文档的术语,而不是为每个新术语删除和重新添加整个文档(因为性能,而不是保留原始条款). 我知道文档不能真正更新.我的问题是为什么? 或者更准确地说,为什么不支持所有形式的更新(术语、存储字段)? 为什么不可能添加另一个术语来指向现有文档 - 从技术上讲:所需要的不仅仅是将现有的文档 ID 放在术语的发布列表中 ..
发布时间:2022-01-15 12:52:27 Java开发

在 not_analyzed 字段上进行 Elasticsearch 通配符搜索

我有一个类似以下设置和映射的索引; {“设置":{“指数":{“分析":{“分析仪":{“分析器关键字":{“分词器":“关键字",“过滤器":“小写"}}}}},“映射":{“产品":{“特性":{“名称":{“分析器":“分析器关键字",“类型":“字符串",“索引":“未分析"}}}}} 我正在努力实现对 name 字段的通配符搜索.我的示例数据是这样的; [{“名称":“SVF-12 ..
发布时间:2022-01-15 12:50:07 其他开发

像关系数据库一样使用 Lucene

我只是想知道我们是否可以在 lucene 中实现一些 RDBMS 功能. 示例:1) 我有 10,000 个项目文档(pdf 文件),必须对其内容进行索引,以使它们可供搜索.2)每个文件都与一个项目有关.项目可以包含项目名称、编号、开始日期、结束日期、位置、类型等详细信息. 我必须在 pdf 文件的内容中搜索给定关键字,但在显示结果时,我想显示项目元数据,如第 (2) 点所述. ..
发布时间:2022-01-15 12:47:48 其他开发

计算lucene索引中的词频

谁能帮我找到所有lucene索引中的词频 例如,如果文档 A 有 3 个单词 (B) 而文档 C 有 2 个,我想要一个返回 5 的方法,显示所有 lucene 索引中单词 (B) 的频率 解决方案 这个问题已经问了很多次了: 获取 Lucene 中的词频 如何计算文档集的词频? 从 Lucene 索引中获取频率最高的词 如何获取 solr 词频? ..
发布时间:2022-01-15 12:47:04 其他开发

如何使用 TermVector Lucene 4.0

在索引方法中,我使用以下行: Field contentsField = new Field("contents", new FileReader(f), Field.TermVector.YES); 但是,在 Lucene 4.0 中,此构造函数已被弃用,应使用 new TextField 代替 new Field. 但 TextField 的问题在于它的构造函数中不接受 TermVe ..
发布时间:2022-01-15 12:44:34 Java开发

Lucene Proximity 搜索超过两个词的短语

Lucene 的手册中已经清楚地解释了邻近搜索的含义,其中包含两个单词,例如 "jakarta apache"~10 中的示例http://lucene.apache.org/core/2_9_4/queryparsersyntax.html#Proximity Searches 但是,我想知道像 "jakarta apache lucene"~10 这样的搜索到底是做什么的?它是否允许相邻 ..
发布时间:2022-01-15 12:43:28 Java开发

使用 Lucene 统计分类结果

我正在尝试使用 Lucene Java 2.3.2 来实现对产品目录的搜索.除了产品的常规字段外,还有一个名为“类别"的字段.一个产品可以属于多个类别.目前,我使用 FilteredQuery 在每个类别中搜索相同的搜索词,以获取每个类别的结果数. 这会导致每个查询进行 20-30 次内部搜索调用以显示结果.这大大减慢了搜索速度.有没有更快的方法使用 Lucene 实现相同的结果? 解 ..
发布时间:2022-01-15 12:42:49 Java开发

多字段,多词,不匹配query_string

我希望能够将多词搜索与多个字段进行匹配,其中搜索的每个词都包含在 any 字段的任意组合中.问题是我想避免使用 query_string. curl -X POST "http://localhost:9200/index/document/1" -d '{"id":1,"firstname":"john","middlename":"clark"“姓氏":“史密斯"}'curl -X POST ..
发布时间:2022-01-15 12:42:41 其他开发