lucene相关内容

Solr 中的 docValue 是什么?我应该什么时候使用它们?

所以,我阅读了多个资源,试图解释 Solr 中的“docValues"是什么,但我似乎不明白什么时候应该使用它们,尤其是与索引字段和存储字段有关的情况.任何人都可以解释一下吗? 解决方案 什么是 Solr 中的 docValues? Doc 值可以解释为 Lucene 的 column-stride 字段值存储,也可以简单地解释为它的未反转索引或正向索引. 用json来说明 ..
发布时间:2022-01-15 13:14:07 其他开发

“Slop"的确切含义在 Lucene SpanNearQuery 中(或在 ElasticSearch span_near 中倾斜)

问题一:在Lucene的SpanNearQuery(或ElasticSearch中的span_near)中,具体含义是什么?slop?是分隔两个匹配词的词数,还是分隔词数加1? 例如,假设您的索引文本是:foo bar biz 哪些查询会匹配此文本:"foo biz"~0, "foo biz"~1, "foo biz"~2 我希望第一个不匹配,最后一个匹配.但是中间呢? 问 ..
发布时间:2022-01-15 13:14:00 其他开发

Elasticsearch 删除映射属性

我正在尝试找出一种方法来删除弹性搜索索引中特定属性的所有条目并删除该属性的所有类型映射. 我一直在查看以下两个文档页面:放映射和删除映射 来自第二个链接: “允许删除映射(类型)及其数据.REST端点是/{index}/{type} 和 DELETE 方法." 我认为我需要的是 /{index}/{type}/{property}? 我是否需要重新创建整个索引来完成此 ..
发布时间:2022-01-15 13:13:53 其他开发

每个领域的不同分析仪

如何为使用 Lucene 编制索引的文档中的每个字段启用不同的分析器?示例: RAMDirectory dir = new RAMDirectory();IndexWriter iw = new IndexWriter(dir, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_CURRENT), true, IndexWriter.Max ..
发布时间:2022-01-15 13:13:44 其他开发

优化 Solr 以进行排序

我正在使用 Solr 进行实时搜索索引.我的数据集大约有 60M 大文档.我需要按时间排序,而不是按相关性排序.目前我在查询中使用排序标志按时间排序.这适用于特定搜索,但是当搜索返回大量结果时,Solr 必须获取所有结果文档并在返回之前按时间排序.这很慢,必须有更好的方法. 有什么更好的方法? 解决方案 我找到了答案. 如果您想按时间而非相关性排序,请对所有过滤器使用 fq= ..
发布时间:2022-01-15 13:13:31 其他开发

是否有用于 Lucene 的 HTML 分析器/标记器?

我想在 Lucene 中从 html 中索引文本,实现此目的的最佳方法是什么? 在 Lucene 中是否有任何好的 Contrib 模块可以做到这一点? 编辑 最后最终使用了 Jericho Parser.它不创建 DOM 并且易于使用. 解决方案 我假设您实际上并不想索引 HTML 标签.如果是这种情况,您可以首先使用 Apache Tika 从 HTML 中提取文本.然后就可 ..
发布时间:2022-01-15 13:13:22 其他开发

如何在 Lucene 中搜索特殊字符(+ ! \ ? : )

我想在索引中搜索特殊字符. 我转义了查询字符串中的所有特殊字符,但是当我在索引中的 lucene 上执行查询为 + 时,它将查询创建为 +(). 因此它不搜索任何字段. 如何解决这个问题?我的索引包含这些特殊字符. 解决方案 如果您使用的是 StandardAnalyzer,则会丢弃非字母数字字符.尝试使用 WhitespaceAnalyzer 索引相同的值,看看是否保留 ..
发布时间:2022-01-15 13:13:14 其他开发

什么是匹配两个包含少于 10 个拉丁文单词的字符串的最佳算法

我正在比较歌曲标题,使用拉丁脚本(尽管并非总是如此),我的目标是一种算法,如果两首歌曲标题似乎是相同的标题,则给出高分,如果它们什么都没有,则给出非常低的分数共同点. 现在我已经不得不使用 Lucene 和 RAMDirectory 编写代码 (Java) 来编写这个 - 但是仅使用 Lucene 来比较两个字符串太重,因此太慢了.我现在开始使用 https://github.com/nic ..
发布时间:2022-01-15 13:13:05 Java开发

避免在重建期间删除当前的 Lucene.NET 索引

我是 Lucene.NET 的新手,但我正在使用 一个开源工具Sitecore CMS,它使用 Lucene.NET 来索引 CMS 中的大量内容.我昨天确认,当我重建索引时,当前的索引文件会擦除干净,因此任何依赖索引的东西在大约 30-60 秒(完整索引重建的时间量)内没有数据.是否有最佳实践或方法使 Lucene.NET 在完全重建新索引之前不会覆盖当前索引文件?我基本上认为我希望它写入新的临 ..
发布时间:2022-01-15 13:12:58 C#/.NET

ElasticSearch 默认评分机制

我正在寻找的是关于 ElasticSearch (Lucene) 的默认评分机制如何真正起作用的简单、清晰的解释.我的意思是,它是使用 Lucene 评分,还是使用自己的评分? 例如,我想通过“名称"字段搜索文档.我使用 .NET NEST 客户端来编写我的查询.让我们考虑这种类型的查询: IQueryResponsequeryResult = client.Sea ..
发布时间:2022-01-15 13:12:50 其他开发

Lucene 的 Ruby 替代品

我经常听说 Lucene,它是 Java 中最好的搜索引擎库之一.有没有类似的(同样强大的)Ruby 库? 解决方案 嗯,有 Ferret,是 Lucene 到 Ruby 的一个端口.此外,Lucene 非常容易从 JRuby 使用,如果您愿意的话. 根据您的需要,您可能还想看看 Solr,这是一个基于 Lucene 构建的更高级别的前端.有一个 Ruby 接口,solr-ruby, ..
发布时间:2022-01-15 13:12:33 Java开发

使用 elasticsearch 精确搜索数组对象类型

我正在寻找一种在弹性搜索中进行 精确 数组匹配的方法.假设这些是我的文件: {"id": 1, "categories" : ["c", "d"]}{“id":2,“类别":[“b",“c",“d"]}{“id":3,“类别":[“c",“d",“e"]}{“id":4,“类别":[“d"]}{“id":5,“类别":[“c",“d"]} 有没有办法搜索所有完全类别为“c"和“d"(文档 1 ..
发布时间:2022-01-15 13:12:24 其他开发

如何在 Solr 5 中创建新内核?

目前我们正在使用 Apache Solr 4.10.3 或 Heliosearch Ddistribution for Solr [HDS] 作为搜索引擎来索引我们的数据. 在那之后,我得到了关于上个月发布 Apache Solr 5.0.0 的消息.我已经成功安装了 Apache Solr 5.0.0 版本,现在它在 8983 端口上正常运行(意味着只运行 solr 但无法创建核心).在该 ..
发布时间:2022-01-15 13:12:16 其他开发

Elasticsearch 服务器发现配置

我已经安装了 ElasticSearch 服务器,我正在运行它: $ ./elasticsearch -f{0.18.2}[11698]:初始化...已加载 [],站点 []{0.18.2}[11698]:已初始化{0.18.2}[11698]:开始...bound_address {inet[/0:0:0:0:0:0:0:0:9300]},publish_address {inet[/192. ..
发布时间:2022-01-15 13:12:02 Java开发

一个lucene字段的store属性

有一个lucene Field的构造函数: Field(String name, String value, Store store, Index index) 例如,我可以通过以下方式创建一个新字段: Field f1 = new Field("text", "The text content", Field.Store.YES, Field.Index.ANALYZED); 我不太清楚 ..
发布时间:2022-01-15 13:11:52 其他开发

Lucene 中 SpanQuery 的用途是什么?

谁能解释一下 SpanQuery 是什么,它的典型用例是什么? 文档 非常简洁,不断提到“跨度"的概念,我不太确定我明白了. 解决方案 Spans 提供了一个 邻近搜索 特性到 Lucene.它们用于查找彼此靠近的多个术语,而无需这些术语以指定的顺序出现.您可以指定要查找的术语,以及它们必须有多接近.您可以将这些跨度查询相互组合或与其他类型的 Lucene 查询组合. ..
发布时间:2022-01-15 13:11:42 其他开发

Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene.Net.我使用标准分析器索引了 100,000 行,运行了一些测试查询,并注意到如果原始术语是单数,复数查询不会返回结果.我了解雪球分析器添加了词干支持,这听起来不错.但是,我想知道使用雪球超过标准的锣是否有任何缺点?跟着它走,我会失去什么吗?是否还有其他分析仪可供考虑? 解决方案 是的,通过使用 Snowball 等词干分析器,您会丢失有关文本原始形式的信息. ..
发布时间:2022-01-15 13:11:32 其他开发

使用 Apache Lucene 索引 MySQL 数据库,并使它们保持同步

在 MySQL 中添加新项目时,它也必须被 Lucene 索引. 从 MySQL 中删除现有项目时,它也必须从 Lucene 的索引中删除. 我们的想法是编写一个脚本,该脚本将通过调度程序每 x 分钟调用一次(例如 CRON 任务).这是一种保持 MySQL 和 Lucene 同步的方法.到目前为止我所管理的: 对于 MySQL 中的每个新添加项,Lucene 也会对其进行索引. ..
发布时间:2022-01-15 13:11:23 Java开发

SOLR - 提升功能(bf)以增加日期最接近现在的文档的分数

我有一个 solr 实例,其中包含从上个月到一年后的“startTime"字段的文档.我想添加一个提升查询/函数来提升 startTime 字段接近当前时间的文档的分数. 到目前为止,我已经看到很多使用 rord 为较新的文档添加提升的示例,但我从未见过这样的示例. 谁能告诉我怎么做? 谢谢 解决方案 如果您使用的是 Solr 1.4+,那么您可以访问函数查询中的“ms" ..
发布时间:2022-01-15 13:11:15 其他开发