lucene相关内容
我为 Lucene.Net 构建了一个自定义收集器,但我不知道如何对结果进行排序(或分页).每次调用 Collect 时,我都可以将结果添加到内部 PriorityQueue 中,我知道这是正确的方法. 我扩展了 PriorityQueue,但它在创建时需要一个大小参数.您必须在构造函数中调用 Initialize 并传入最大大小. 但是,在收集器中,搜索器只是在获得新结果时调用 Co
..
我们有一个管理内容页面的托管应用程序.每个页面可以有许多自定义字段,以及一些标准字段(时间戳、用户名、用户电子邮件等). 可能有数百个不同的网站在使用该系统——处理过滤/搜索的有效方法是什么?想象一个您想要缩小范围的网格视图.您可以过滤特定字段(用户 ID、日期),也可以输入全文搜索. 例如,“所有由 userid 10 开始的页面"将是一个针对 MySQL 数据库的非常快速的查询.但
..
我正在使用 Lucene.net 来尝试了解如何在我的应用程序中实现它. 我有以下代码 .....//添加2个文档var doc1 = new Document();var doc2 = new Document();doc1.Add(new Field("id", "doc1", Field.Store.YES, Field.Index.ANALYZED));doc1.Add(new
..
Mongodb 是一个 nosql 数据库,任何查询都可以在上面运行,除了全文搜索,因为它会降低整体性能.Solr 是一个搜索引擎.当我们将这两者集成在一起时,我们在两个系统中是否拥有相同的数据?因此,如果我们已经要存储数据,为什么我们不直接将其存储在 solr 和 lucene 中.顺便说一句,我不确定 solr 何时仅存储索引或与数据一起存储. 解决方案 现在我知道原因了,因为只有我们
..
我有一个搜索框,它根据给定的输入对标题字段进行搜索,因此用户推荐了所有以插入的文本开头的可用标题.它基于 Lucene 和 Hibernate Search.在输入空间之前它工作正常.然后结果消失.例如,我希望“Learning H"给我“Learning Hibernate"作为结果.但是,这不会发生.你能告诉我我应该在这里用什么吗? 查询生成器: QueryBuilder qBuild
..
如何在 Lucene.Net 中跨多个字段进行过滤?在一个领域我只是这样做: TermQuery tool = new TermQuery(new Term("Tool", "Nail"));过滤器 f = new QueryFilter(tool); 如果我现在想为过滤器添加指甲长度,我该怎么做? 另外,我希望用户能够在没有搜索词的情况下进行搜索(即只需选择一个类别),我该怎么做?
..
我们公司有数以千计的 PDF 文档.我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接. 解决方案 Lucene 系列中的所有项目都不能原生处理 PDF,但是您可以使用一些实用程序以及编写自己的编写好的示例. Lucene 几乎可以
..
我可以用不同的因素提升 MultiFieldQueryParser 中的不同字段吗?另外,我可以分配给字段的最大提升因子值是多少? 非常感谢!埃德 解决方案 MultiFieldQueryParser 有一个 [constructor][1] 接受一个 boosts 映射.你可以像这样使用它: String[] fields = new String[] { "title", "k
..
我正在使用 Solr,我想知道查询中是否可以包含 LIKE 子句.例如,我想知道所有标题中带有“纽约"的组织.在 SQL 中,这会写成 Name LIKE 'New York%'. 我的问题 - 你如何在 Solr 中编写 LIKE 查询? 我正在使用 SolrNet 库,如果这有什么不同的话. 解决方案 您只需搜索“纽约",但首先您需要正确配置字段的分析器.例如,您可能希望从
..
我是 Lucene 的新手,所以想从你们那里得到一些帮助:) 背景:目前我将文档存储在 SQL Server 中,并希望使用 Lucene 对 SQL Server 中的这些文档进行全文/标记搜索. Q1) 在这种情况下,为了对文档进行关键字搜索,我应该将所有这些文档都插入到 Lucene 索引中吗?这是否意味着会有数据重复(一个在 SQL Server 中,另一个在 Lucene 索
..
是否有任何链接/资源可用于大型数据集上的 Lucene/Solr 性能基准测试.500GB~5TB以上的数据集 谢谢 解决方案 Lucene 提交者 Mike McCandless 在 benchmarks 上运行定期跟踪性能改进和回归.它们是使用 Wikipedia 导出的,可能比您要查找的要小一些. 但性能并不太取决于输入大小,而是取决于文档的数量和唯一术语.如果您已经有一
..
是否可以在 Java 中使用 Lucene 搜索日期范围?如何根据日期字段和日期范围构建 Lucene 搜索查询?例如: 在指定日期之间 在指定日期之前 在指定日期之后 过去 24 小时内 过去一周内 在过去一个月内. [编辑] 我使用的是 Lucene 2.4.1,我的系统非常旧,而且测试非常糟糕,所以我希望尽可能不必升级 解决方案 Lucene(无论如何在 2.9
..
在处理文本时,为什么需要专门针对该语言的分词器? 用空格进行标记还不够吗?在哪些情况下不宜仅使用空格标记化? 解决方案 标记化是从表面文本中识别出具有语言意义的单位 (LMU). 中文:如果您晚上只能在新加坡前往娱乐场所,Zouk 必然是您的不二之选.p> 简体中文:如果你只有时间去新加坡的一个俱乐部,那一定是 Zouk. 印度尼西亚语:Jika Anda hanya
..
elasticsearch 中 omit_norms 选项的好用例是什么?我在 es 网站上找不到足够的解释. 解决方案 规范是存储在索引中与字段并列的值,用于评分.使用默认评分算法,这结合了 lengthNorm(用于对短字段进行比长字段更重的权重)和任何字段级别的提升.您可以在 Lucene 文档. LengthNorm 方面最有助于正确的全文字段.在不需要字段提升的结构化字段上
..
使用 Solr 1.4 有几个优点(开箱即用的分面搜索、分组、复制、http 管理与卢克……). 即使我在我的 Java 应用程序中嵌入了搜索功能,我也可以使用 SolrJ 来避免使用 Solr 时的 HTTP 权衡.是否推荐 SolrJ? 那么,您建议什么时候使用“纯 Lucene"?它是否具有更好的性能或需要更少的 RAM?单元测试更好吗? PS:我知道这个问题. 解决
..
我希望能够结合 Kibana Terms Graph 的功能(能够根据来自特定属性的值的唯一性创建存储桶)和 直方图(根据查询将数据分成桶,然后根据时间说明日期). 总的来说,我想创建一个直方图,但我只想根据一个查询的结果创建直方图,而不是像在 Kibana 演示应用.相反,我希望根据我的特定字段的唯一值动态创建每个存储桶.例如,考虑我的查询返回的以下数据: {"myValueType":
..
在 lucene spatial 4 中,我想知道 geohash 索引是如何在幕后工作的.我理解 geohash 的概念,它基本上需要 2 个点(纬度、经度)并创建一个“字符串"哈希. 索引只是“字符串"索引(r-tree 或 quad-tree)还是类似的东西(例如仅索引姓氏)......或者它有什么特别之处. 对于预先固定的类型搜索,是否对哈希的所有 n-gram 进行索引,例如
..
Lucene 文档指出,IndexSearcher 和 IndexWriter 的单个实例应该用于整个应用程序中的每个索引,并跨所有线程使用.此外,在重新打开索引之前,对索引的写入将不可见. 所以,我正在尝试在多线程设置中遵循这些指南.(几个线程写入,多个用户线程搜索).我不想在每次更改时重新打开索引,而是希望搜索器实例不超过一定的时间(比如 20 秒). 一个中心组件负责打开索引读取
..
我拼命地尝试在 Lucene 中实现一个新功能,我求助于你.基本上,在这个 JIRA 问题中,Lucene 中添加了一些额外的评分模型:https://issues.apache.org/jira/browse/LUCENE-2959 请原谅我的无知,但我真的不明白如何获得该链接中描述的 lucene 的“版本",以便我可以将它用于我自己的需要.该链接中的作者提到他们已经实现了新的排名模型,
..
我即将实施 Solr 以在基于 NopCommerce 的购物车应用程序上进行搜索.我想对步骤有一个想法,我应该如何进行.我已经在谷歌上寻求一些帮助,但它并没有真正帮助.我发现 .net 有一个接口可以将它与 .net 应用程序集成,但在 solr 网站上没有找到任何文档或教程. 我需要您的帮助来决定解决这个问题的最佳方法. 解决方案 有一个SolrSolr 网站上的教程.至于设置可
..