lucene相关内容

使用 SQLite 按字段排序

我实际上正在从事一个 Symfony 项目,我们正在使用 Lucene 作为我们的搜索引擎.我试图使用 SQLite 内存数据库进行单元测试(我们使用的是 MySQL),但我偶然发现了一些东西. 项目的搜索引擎部分使用 Lucene 索引.基本上,您查询它并获得一个有序的 id 列表,您可以使用 Where In() 子句查询您的数据库.问题是查询中有一个 ORDER BY Field(id ..
发布时间:2022-01-15 12:56:14 数据库

Luke 4.6.1 FormatTooNew 错误?

所以我第一次尝试使用 Luke,但遇到了一些麻烦.我将它指向我想要的目录,但是看到这个: org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:SimpleFSIndexInput(path="C:\Users*me*\Chat Data\chat-data\index\segments.gen")):-3(需要在-2和- ..
发布时间:2022-01-15 12:56:06 其他开发

使用 Lucene:如果我进行前缀搜索,为什么会收到太多子句错误?

我有一个应用程序进行前缀搜索有一段时间了.最近索引大小增加了,结果发现某些前缀太多,以至于 lucene 无法处理.它一直给我一个 Too Many Clauses 错误,这非常令人沮丧,因为我一直在查看我的 JAR 并确认包含的代码实际上都没有使用布尔查询. 为什么它不抛出类似 Too Many Hits 的异常?当我肯定只使用前缀查询时,为什么增加布尔查询的静态最大子句整数实际上会使这个 ..
发布时间:2022-01-15 12:55:48 其他开发

Lucene 和特殊字符

我正在使用 Lucene.Net 2.0 来索引数据库表中的某些字段.其中一个字段是允许特殊字符的“名称"字段.当我执行搜索时,它找不到包含带有特殊字符的术语的文档. 我这样索引我的字段: Directory DALDirectory = FSDirectory.GetDirectory(@"C:\Indexes\Name", false);Analyzer 分析器 = new Stand ..
发布时间:2022-01-15 12:55:32 C#/.NET

如何以一种方法转义java中的一组特殊字符?

我使用 lucene 搜索,但 lucene 有一堆特殊字符可以转义,例如: - &&||!( ) { } [ ] ^ " ~ * ? : \ 我在转义这些字符时遇到问题,因为它们太多了,如果我使用 String.replaceAll() 方法,我最终会得到很长的代码行来转义字符.最好的方法是什么?谢谢! 解决方案 还有一个方法叫QueryParser#escape,这可能有用: ..
发布时间:2022-01-15 12:55:18 Java开发

弹性搜索:“function_score"使用“boost_mode":“替换"忽略功能分数

我正在尝试使用 function_score 中定义的不同函数修改来自正常查询的分数. 为了找出我的函数计算出的分数,我将“boost_mode"指定为“replace".但是,这会使所有分数保持不变:都等于 1. 考虑以下查询: {“询问": {“功能分数":{“询问": {“条款":{“名称":[“男人",“女人"]}},“score_mode":“平均",“职能": [{“筛选 ..
发布时间:2022-01-15 12:55:08 其他开发

大型 XML 文件的 Apache Lucene 索引

我是 lucene 的新手,我想使用包含纯文本以及属性和许多 xml 标签的大型 xml 文件(15GB)的 lucene 进行索引.如何使用带有任何示例的 lucene 解析和索引这个 xml 文件,如果我们使用 lucene,我们需要任何数据库 如何使用 lucene 解析和索引巨大的 xml 文件?任何示例或链接都将有助于我理解该过程.另一个,如果我使用 lucene,我是否需要任何数 ..
发布时间:2022-01-15 12:54:55 其他开发

Neo4j 自动索引、遗留索引和标签模式:相对于节点的全文搜索的差异

这个问题在neo4j-legacy-indexes-and-auto-index-vs-new-label-bases-schema-indexes和the-difference-between-legacy-索引自动索引和新的索引方法 我还不能对它们发表评论并在这里写一个新线程.在我的数据库中,我有一个旧索引“主题"和标签“主题". 我知道: 一个.pattern MATCH ..
发布时间:2022-01-15 12:54:40 其他开发

如何在lucene中将RAMDirectory集成到FSDirectory

我现在有一个问题,这个是关于 lucene 的.我试图制作一个可以进行索引并将它们首先存储在内存中的 lucene 源代码使用 RAMDirectory,然后将内存中的该索引刷新到磁盘中使用 FSDirectory.我对这段代码做了一些修改,但是徒劳无功.也许你们中的一些人可以帮帮我. 那么对我来说,将 RAMDirectory 集成到此源中的最佳方式是什么?将它们放入 FSDirector ..
发布时间:2022-01-15 12:54:31 Java开发

lucene 如何在倒排索引中使用跳过列表?

在一些博客和 lucene 网站中,我知道 lucene 在倒排索引中使用数据结构“跳过列表".但我对此有些疑惑. 1:一般情况下,跳过列表可能会在内存中使用,但倒排索引存储在磁盘中.那么 lucene 在索引搜索时是如何使用它的呢?只是在磁盘上扫描或加载到内存中? 2:skip list的插入操作符经常使用random(0,1)来决定是否插入到下一级,但是在luncene的介绍中,似 ..
发布时间:2022-01-15 12:54:18 其他开发

如何在 Lucene 搜索中匹配精确文本?

我正在尝试匹配 TITLE 列中的文本Config migration from ASA5505 8.2 to ASA5516. 我的程序是这样的. 目录目录 = FSDirectory.open(indexDir);MultiFieldQueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_35,new Str ..
发布时间:2022-01-15 12:54:09 Java开发

打开 lucene 索引时出错:映射失败

我尝试使用 1、2、3、4 GB 内存启动该进程,但仍然出现相同的错误.有小费吗?gc 日志显示它正在运行 GC,即使它有足够的内存.但可能这个错误与使用 NIO 的内存映射文件有关.有人以前见过这样的事情吗?如果是这样,您是如何解决的? $ java -d64 -server -Xmx15g -Xms15g -XX:+UseConcMarkSweepGC -verbose:gc -XX:Max ..
发布时间:2022-01-15 12:54:01 Java开发

Lucene 性能

能否请您就 lucene 性能应遵循的步骤提出建议.尤其是大数据(大约 1TB 的 pdf 文件要被索引) 解决方案 阅读 扩展 Lucene 和 Solr. 从 Lucene 定义您的需求(例如:您正在为 PDF 编制索引 - 您需要存储全文,只是为了使其可搜索,还是根本不需要?) 做一个小规模的实验——索引几个文档,看看检索是否足够好. 尝试对整个内容进行索引(考虑论文中关于快速 ..
发布时间:2022-01-15 12:53:52 Java开发

使用 Lucene 提升新文档

Lucene 是否提供了一种增加新文档的方法? 例如,假设 Lucene 文档包含一个日期字段.是否有可能在不让用户改变她的查询的情况下,以更高的分数呈现最新的文档? 我不想采用粗略的“按日期排序"解决方案,因为它会完全取消评分算法. 解决方案 将文档放入索引时使用 Document.setBoost(float value). 您可以不断地重新调整现有文档上的值,或者拥 ..
发布时间:2022-01-15 12:53:42 Java开发

自 2008 R2 版以来,是否有任何 Sql Server 全文搜索 (FTS) 性能改进?

我们正在对包含 260 万条记录的表使用 SQL Server 2008 R2 全文搜索.搜索性能通常很差,它遵循通常报告的模式:冷系统/第一次运行 ~10+ 秒,后续运行 ~1-2 秒.这与 2013 年 2 月以下文章中报告的结果一致: 所以你认为你可以搜索 - 比较 Microsoft SQL Server FTS和 Apache Lucene 文章展示了以下使用维基百科转储数据 ..
发布时间:2022-01-15 12:53:36 数据库

在 Lucene 5.0 中按字母顺序排序字符串字段

我在 Lucene 5.0 中对字符串字段进行排序时遇到问题.显然,自 Lucene 4 以来您可以进行排序的方式已经改变.下面显示了一些正在为我的文档编制索引的字段的片段. @Override公共文档生成文档(流程实体){文档文档 = 新文档();doc.add(new IntField(id, entity.getID(), Field.Store.YES));doc.add(new Tex ..
发布时间:2022-01-15 12:53:31 Java开发

Lucene/Lucene.NET - Document.SetBoost() 值?

我知道它需要浮点数,但结果中不同级别的提升有哪些典型值? 例如: 如果我想将文档的权重提高 10%,那么我应该将其设置为 1.1?20% 然后 1.2? 如果我开始将提升设置为 75.0 之类的值会怎样?还是 500.0? 编辑:固定格式 解决方案 请看Lucene 相似性文档 用于公式.原则上,在所有其他因素相同的情况下,将文档的提升设置为 1.1 确实会使其得分 ..
发布时间:2022-01-15 12:53:24 其他开发