lucene相关内容

Apache Lucene:如何在索引时使用 TokenStream 手动接受或拒绝令牌

我正在寻找一种使用 Apache Lucene 编写自定义索引的方法(准确地说是 PyLucene,但 Java 的答案很好). 我想做的是:当向索引添加文档时,Lucene 会对其进行标记,删除停用词等.如果我不是,通常使用 Analyzer 来完成搞错了. 我想要实现的是以下内容:在 Lucene 存储给定术语之前,我想执行查找(例如,在字典中)以检查是否保留该术语或丢弃它(如果该 ..
发布时间:2022-01-15 13:03:07 Java开发

具有频繁更新索引的 FieldCache

你好 我有经常使用新记录更新的 lucene 索引,我的索引中有 5,000,000 条记录,并且我正在使用 FieldCache 缓存我的数字字段之一.但是在更新索引后,再次重新加载 FieldCache 需要时间(我正在重新加载缓存,因为文档说 DocID 不可靠)所以我怎样才能通过仅将新添加的 DocID 添加到 FieldCache 来最小化这种开销,导致此功能成为我的瓶颈应用. In ..
发布时间:2022-01-15 13:03:00 Java开发

在 SQL 数据库中进行手动更改时,Lucene.Net 索引更新

我是 Lucene.Net 的新手,目前正在进行研发以将其用于 .Net 应用程序.由于 Lucene.Net 是一个通用库,它与 SQL Server、SQLite 等数据源无关.它只知道你有一个你想要索引的 Lucene 文档.因此,当我们将数据从任何数据源转储到 Lucene.Net 时.当数据在 SQL 数据库中时,我们如何使 Lucene.Net 文档保持最新(例如).保持两种数据(即( ..
发布时间:2022-01-15 13:02:53 C#/.NET

如何使用多短语查询?

http://lucene.apache.org/java/2_3_1/api/core/org/apache/lucene/search/MultiPhraseQuery.html 对于示例“Microsoft app*",他说使用 IndexReader.term() 但返回 TermEnum,我如何将它放入 MultiPhraseQueryParser ? 编辑: 或者有人 ..
发布时间:2022-01-15 13:02:29 Java开发

无法使用 lucene IndexWriter.deleteDocuments(term) 删除文档

这两天一直在苦苦挣扎,就是无法用indexWriter.deleteDocuments(term) 删除文档 这里我会放上做测试的代码,希望有人能指出我做错了什么,已经尝试过的事情: 将 lucene 版本从 2.x 更新为 5.x 使用 indexWriter.deleteDocuments() 代替 indexReader.deleteDocuments() 将 indexOpt ..
发布时间:2022-01-15 13:02:10 Java开发

带有边界的Lucene邻近搜索?

有没有办法执行有界的邻近搜索,不是由固定数量的标记,而是由某种类型的 2 个标记标记?例如,要实现以单个句子或段落为边界的邻近查询?显然分析器必须支持它,但以前是否做过,如何做? 解决方案 SpanPositionCheckQuery 是一个定义跨度查询的抽象类,它检查是否匹配的跨度通过位置检查.具体实现包括检查匹配是否在定义的位置范围内的 SpanPositionRangeQuery 和 ..
发布时间:2022-01-15 13:02:02 其他开发

分析后如何读取 Lucene 文档字段标记?

如果我创建一个文档并添加一个既可存储又可分析的字段,我如何才能将该字段作为令牌列表读回?我有以下内容: 文档 doc = new Document();doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));doc.add(new Field("text", fileContent, Store.YES, Index ..
发布时间:2022-01-15 13:01:57 其他开发

Lucene 4.2 字符串字段

我是 Lucene 的新手.我有两个文档,并且我希望对名为“关键字"的文档字段进行完全匹配(该字段可能在文档中出现多次). 第一个文档包含关键字“注释很酷".第二个文档包含关键字“注释也很酷".当我搜索“Annotation is cool"时,如何构建查询以便只找到第一个文档? 我读过一些关于“StringField"的内容,并且它没有被标记化.如果我在“addDoc"方法中将“关键 ..
发布时间:2022-01-15 13:01:48 其他开发

Lucene 4.0 IndexWriter updateDocument 用于数字项

我只是想知道如何根据数字字段更新(删除/插入)文档.到目前为止,我这样做了: LuceneManager.updateDocument(writer, new Term("id", NumericUtils.intToPrefixCoded(sentenceId)), newDoc); 但现在在 Lucene 4.0 中,NumericUtils 类已更改为 this 我不太明白.有什么帮助吗 ..
发布时间:2022-01-15 13:01:42 Java开发

是否可以在一个 JVM 中运行多个地图任务?

我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让多个 map/reduce 任务共享同一个 JVM? 解决方案 通过指定作业配置mapred.job.reuse.jvm.num.tasks,作业可以使任务JVM被重用.如果值为 1(默认值),则不重用 JVM(即每个 JVM 1 个任务).如果为 -1,则 JVM 可以运行(同一个作业) ..
发布时间:2022-01-15 13:01:32 其他开发

将 CharFilter 与 Lucene 4.3.0 的 StandardAnalyzer 一起使用

我正在尝试将 CharFilter 添加到我的 StandardAnalyzer.我的意图是从我索引的所有文本中去掉标点符号;例如,我希望 PrefixQuery "pf" 匹配 "P.F. Chang's" 或 "zaras" 匹配 "Zara's". 似乎这里最简单的攻击计划是在分析之前过滤掉所有标点符号.根据 Analyzer 软件包文档,这意味着我应该使用 CharFilter. ..
发布时间:2022-01-15 13:01:10 Java开发

在elasticsearch中转义特殊字符

我正在使用 elasticsearch python 客户端 对 elasticsearch 实例进行一些查询我们正在托管. 我注意到有些字符需要转义.具体来说,这些... + - &&||!( ) { } [ ] ^ " ~ * ? : \ 除了我已经想到的之外,有没有一种干净的方法可以做到这一点?当然有比做更清洁的方法 术语.replace("+", "\+").代替("-", " ..
发布时间:2022-01-15 13:01:02 Python

如何查看 Lucene 索引

我正在尝试学习和理解 lucene 的工作原理,以及 lucene 索引中的内容.基本上我想看看数据在 lucene 索引中是如何表示的? 我使用 lucene-core 8.6.0 作为依赖项 下面是我非常基本的 Lucene 代码 private Document create(File file) throws IOException {文档文档 = 新文档();Field ..
发布时间:2022-01-15 13:00:56 其他开发

休眠拦截器 - 加载事件之后

加载实体后是否发生任何事件?我的目标是将此实体添加到 Solr 或 Lucene 索引.EmptyInterceptor OnLoad 事件在对象初始化之前发生.我想在设置对象属性后处理一个事件.是否可以使用 Hibernate 拦截器或其他东西? 解决方案 @PostLoad 似乎可以完成这项工作(请参阅 社区文档).如果您在实体中使用 this 注释方法,则应在加载实体后触发. ..
发布时间:2022-01-15 13:00:48 Java开发

Lucene 精确排序

我在不太了解如何实现一个像样的 Lucene 排序或排名方面遇到了这个长期问题.假设我有一个城市及其人口的列表.如果有人搜索“新"或“伦敦",我想要按人口排序的前缀匹配列表,并且我使用前缀搜索和反转的按字段排序,其中有一个人口字段,即纽约新墨西哥州;或伦敦,伦敦德里. 但是,我也总是希望完全匹配的名称位于顶部.因此,在“伦敦"的情况下,列表应该显示“伦敦,伦敦,伦敦德里",其中第一个伦敦在英 ..
发布时间:2022-01-15 13:00:38 其他开发

在 Lucene 中获取文档 ID

在 lucene 中,我可以做到以下几点 doc.GetField("mycustomfield").StringValue(); 这会检索索引文档中列的值. 我的问题,对于同一个'doc',有没有办法获取Doc.身份证 ?卢克展示了它,因此必须有办法解决这个问题.我需要它来删除有关更新的文档. 我搜索了文档,但没有找到要在 GetField 中使用的术语,或者是否已经有其他方法. ..
发布时间:2022-01-15 13:00:29 C#/.NET

Solr - 最常见的搜索词

我正在尝试组织一个 solr 搜索引擎.我已经设置了拼写错误系统和建议. 但是我似乎无法找到如何检索 solr/lucene 中搜索最多的前 10 个单词/术语/关键字.我怎样才能得到这个?我想在我的主页上显示这些. 解决方案 Solr 不提供这种开箱即用的功能.有 StatsComponent,它为您提供各种统计信息,但所有这些都只是数字. 根据您访问 solr 的方式(直接 ..
发布时间:2022-01-15 13:00:03 其他开发