lucene相关内容

当我不知道创建时的最大大小时,如何使用 Lucene 的 PriorityQueue?

我为 Lucene.Net 构建了一个自定义收集器,但我不知道如何对结果进行排序(或分页).每次调用 Collect 时,我都可以将结果添加到内部 PriorityQueue 中,我知道这是正确的方法. 我扩展了 PriorityQueue,但它在创建时需要一个大小参数.您必须在构造函数中调用 Initialize 并传入最大大小. 但是,在收集器中,搜索器只是在获得新结果时调用 Co ..
发布时间:2022-01-15 13:23:11 其他开发

高效过滤/搜索

我们有一个管理内容页面的托管应用程序.每个页面可以有许多自定义字段,以及一些标准字段(时间戳、用户名、用户电子邮件等). 可能有数百个不同的网站在使用该系统——处理过滤/搜索的有效方法是什么?想象一个您想要缩小范围的网格视图.您可以过滤特定字段(用户 ID、日期),也可以输入全文搜索. 例如,“所有由 userid 10 开始的页面"将是一个针对 MySQL 数据库的非常快速的查询.但 ..
发布时间:2022-01-15 13:23:04 数据库

将 mongodb 与 solr 集成的动机是什么

Mongodb 是一个 nosql 数据库,任何查询都可以在上面运行,除了全文搜索,因为它会降低整体性能.Solr 是一个搜索引擎.当我们将这两者集成在一起时,我们在两个系统中是否拥有相同的数据?因此,如果我们已经要存储数据,为什么我们不直接将其存储在 solr 和 lucene 中.顺便说一句,我不确定 solr 何时仅存储索引或与数据一起存储. 解决方案 现在我知道原因了,因为只有我们 ..
发布时间:2022-01-15 13:22:46 其他开发

如何在 Hibernate Search 中使用通配符和空格搜索字段

我有一个搜索框,它根据给定的输入对标题字段进行搜索,因此用户推荐了所有以插入的文本开头的可用标题.它基于 Lucene 和 Hibernate Search.在输入空间之前它工作正常.然后结果消失.例如,我希望“Learning H"给我“Learning Hibernate"作为结果.但是,这不会发生.你能告诉我我应该在这里用什么吗? 查询生成器: QueryBuilder qBuild ..
发布时间:2022-01-15 13:22:38 Java开发

lucene.net 结合了多个过滤器并且没有搜索词

如何在 Lucene.Net 中跨多个字段进行过滤?在一个领域我只是这样做: TermQuery tool = new TermQuery(new Term("Tool", "Nail"));过滤器 f = new QueryFilter(tool); 如果我现在想为过滤器添加指甲长度,我该怎么做? 另外,我希望用户能够在没有搜索词的情况下进行搜索(即只需选择一个类别),我该怎么做? ..
发布时间:2022-01-15 13:22:32 其他开发

我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?

我们公司有数以千计的 PDF 文档.我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接. 解决方案 Lucene 系列中的所有项目都不能原生处理 PDF,但是您可以使用一些实用程序以及编写自己的编写好的示例. Lucene 几乎可以 ..
发布时间:2022-01-15 13:22:26 其他开发

MultiFieldQueryParser 中的提升因子

我可以用不同的因素提升 MultiFieldQueryParser 中的不同字段吗?另外,我可以分配给字段的最大提升因子值是多少? 非常感谢!埃德 解决方案 MultiFieldQueryParser 有一个 [constructor][1] 接受一个 boosts 映射.你可以像这样使用它: String[] fields = new String[] { "title", "k ..
发布时间:2022-01-15 13:22:16 其他开发

带有 LIKE 子句的 Solr 查询

我正在使用 Solr,我想知道查询中是否可以包含 LIKE 子句.例如,我想知道所有标题中带有“纽约"的组织.在 SQL 中,这会写成 Name LIKE 'New York%'. 我的问题 - 你如何在 Solr 中编写 LIKE 查询? 我正在使用 SolrNet 库,如果这有什么不同的话. 解决方案 您只需搜索“纽约",但首先您需要正确配置字段的分析器.例如,您可能希望从 ..
发布时间:2022-01-15 13:22:07 其他开发

Lucene 和 SQL Server - 最佳实践

我是 Lucene 的新手,所以想从你们那里得到一些帮助:) 背景:目前我将文档存储在 SQL Server 中,并希望使用 Lucene 对 SQL Server 中的这些文档进行全文/标记搜索. Q1) 在这种情况下,为了对文档进行关键字搜索,我应该将所有这些文档都插入到 Lucene 索引中吗?这是否意味着会有数据重复(一个在 SQL Server 中,另一个在 Lucene 索 ..
发布时间:2022-01-15 13:21:58 数据库

在哪里可以找到 Apache Lucene/Solr 的性能基准

是否有任何链接/资源可用于大型数据集上的 Lucene/Solr 性能基准测试.500GB~5TB以上的数据集 谢谢 解决方案 Lucene 提交者 Mike McCandless 在 benchmarks 上运行定期跟踪性能改进和回归.它们是使用 Wikipedia 导出的,可能比您要查找的要小一些. 但性能并不太取决于输入大小,而是取决于文档的数量和唯一术语.如果您已经有一 ..
发布时间:2022-01-15 13:21:51 其他开发

在 Java 中使用 Lucene 搜索日期范围?

是否可以在 Java 中使用 Lucene 搜索日期范围?如何根据日期字段和日期范围构建 Lucene 搜索查询?例如: 在指定日期之间 在指定日期之前 在指定日期之后 过去 24 小时内 过去一周内 在过去一个月内. [编辑] 我使用的是 Lucene 2.4.1,我的系统非常旧,而且测试非常糟糕,所以我希望尽可能不必升级 解决方案 Lucene(无论如何在 2.9 ..
发布时间:2022-01-15 13:21:37 Java开发

为什么每种语言都需要分词器?

在处理文本时,为什么需要专门针对该语言的分词器? 用空格进行标记还不够吗?在哪些情况下不宜仅使用空格标记化? 解决方案 标记化是从表面文本中识别出具有语言意义的单位 (LMU). 中文:如果您晚上只能在新加坡前往娱乐场所,Zouk 必然是您的不二之选.p> 简体中文:如果你只有时间去新加坡的一个俱乐部,那一定是 Zouk. 印度尼西亚语:Jika Anda hanya ..
发布时间:2022-01-15 13:21:28 其他开发

Elasticsearch:何时将 omit_norms 选项设置为 false

elasticsearch 中 omit_norms 选项的好用例是什么?我在 es 网站上找不到足够的解释. 解决方案 规范是存储在索引中与字段并列的值,用于评分.使用默认评分算法,这结合了 lengthNorm(用于对短字段进行比长字段更重的权重)和任何字段级别的提升.您可以在 Lucene 文档. LengthNorm 方面最有助于正确的全文字段.在不需要字段提升的结构化字段上 ..
发布时间:2022-01-15 13:21:17 其他开发

在 Solr 上更喜欢 Apache Lucene 的情况?

使用 Solr 1.4 有几个优点(开箱即用的分面搜索、分组、复制、http 管理与卢克……). 即使我在我的 Java 应用程序中嵌入了搜索功能,我也可以使用 SolrJ 来避免使用 Solr 时的 HTTP 权衡.是否推荐 SolrJ? 那么,您建议什么时候使用“纯 Lucene"?它是否具有更好的性能或需要更少的 RAM?单元测试更好吗? PS:我知道这个问题. 解决 ..
发布时间:2022-01-15 13:21:08 Java开发

使用 ElasticSearch 术语聚合动态创建的存储桶构建 Kibana 直方图

我希望能够结合 Kibana Terms Graph 的功能(能够根据来自特定属性的值的唯一性创建存储桶)和 直方图(根据查询将数据分成桶,然后根据时间说明日期). 总的来说,我想创建一个直方图,但我只想根据一个查询的结果创建直方图,而不是像在 Kibana 演示应用.相反,我希望根据我的特定字段的唯一值动态创建每个存储桶.例如,考虑我的查询返回的以下数据: {"myValueType": ..
发布时间:2022-01-15 13:21:00 其他开发

geohash 索引在 Lucene 中是如何工作的

在 lucene spatial 4 中,我想知道 geohash 索引是如何在幕后工作的.我理解 geohash 的概念,它基本上需要 2 个点(纬度、经度)并创建一个“字符串"哈希. 索引只是“字符串"索引(r-tree 或 quad-tree)还是类似的东西(例如仅索引姓氏)......或者它有什么特别之处. 对于预先固定的类型搜索,是否对哈希的所有 n-gram 进行索引,例如 ..
发布时间:2022-01-15 13:20:53 其他开发

在 Lucene 中,如何确定 IndexSearcher 或 IndexWriter 是否正在另一个线程中使用?

Lucene 文档指出,IndexSearcher 和 IndexWriter 的单个实例应该用于整个应用程序中的每个索引,并跨所有线程使用.此外,在重新打开索引之前,对索引的写入将不可见. 所以,我正在尝试在多线程设置中遵循这些指南.(几个线程写入,多个用户线程搜索).我不想在每次更改时重新打开索引,而是希望搜索器实例不超过一定的时间(比如 20 秒). 一个中心组件负责打开索引读取 ..
发布时间:2022-01-15 13:20:45 Java开发

Lucene 排名——如何使用新的 4.0 评分模型

我拼命地尝试在 Lucene 中实现一个新功能,我求助于你.基本上,在这个 JIRA 问题中,Lucene 中添加了一些额外的评分模型:https://issues.apache.org/jira/browse/LUCENE-2959 请原谅我的无知,但我真的不明白如何获得该链接中描述的 lucene 的“版本",以便我可以将它用于我自己的需要.该链接中的作者提到他们已经实现了新的排名模型, ..
发布时间:2022-01-15 13:20:29 其他开发

使用 .net Web 应用程序实现 Solr

我即将实施 Solr 以在基于 NopCommerce 的购物车应用程序上进行搜索.我想对步骤有一个想法,我应该如何进行.我已经在谷歌上寻求一些帮助,但它并没有真正帮助.我发现 .net 有一个接口可以将它与 .net 应用程序集成,但在 solr 网站上没有找到任何文档或教程. 我需要您的帮助来决定解决这个问题的最佳方法. 解决方案 有一个SolrSolr 网站上的教程.至于设置可 ..
发布时间:2022-01-15 13:20:20 其他开发