lucene 第8页 - IT屋-程序员软件开发技术分享社区

Apache Lucene:如何在索引时使用 TokenStream 手动接受或拒绝令牌

我正在寻找一种使用 Apache Lucene 编写自定义索引的方法(准确地说是 PyLucene，但 Java 的答案很好). 我想做的是:当向索引添加文档时，Lucene 会对其进行标记，删除停用词等.如果我不是，通常使用 Analyzer 来完成搞错了. 我想要实现的是以下内容:在 Lucene 存储给定术语之前，我想执行查找(例如，在字典中)以检查是否保留该术语或丢弃它(如果该 ..

发布时间：2022-01-15 13:03:07 java python apache indexing lucene Java开发

具有频繁更新索引的 FieldCache

你好我有经常使用新记录更新的 lucene 索引，我的索引中有 5,000,000 条记录，并且我正在使用 FieldCache 缓存我的数字字段之一.但是在更新索引后，再次重新加载 FieldCache 需要时间(我正在重新加载缓存，因为文档说 DocID 不可靠)所以我怎样才能通过仅将新添加的 DocID 添加到 FieldCache 来最小化这种开销，导致此功能成为我的瓶颈应用. In ..

发布时间：2022-01-15 13:03:00 c# java .net lucene lucene.net Java开发

在 SQL 数据库中进行手动更改时，Lucene.Net 索引更新

我是 Lucene.Net 的新手，目前正在进行研发以将其用于 .Net 应用程序.由于 Lucene.Net 是一个通用库，它与 SQL Server、SQLite 等数据源无关.它只知道你有一个你想要索引的 Lucene 文档.因此，当我们将数据从任何数据源转储到 Lucene.Net 时.当数据在 SQL 数据库中时，我们如何使 Lucene.Net 文档保持最新(例如).保持两种数据(即( ..

发布时间：2022-01-15 13:02:53 c# sql-server lucene lucene.net C#/.NET

在 Apache 的 Lucene 中使用默认和自定义停用词(奇怪的输出)

我正在使用 Apache 的 Lucene (8.6.3) 和以下 Java 8 代码: private static final String CONTENTS = "contents";final String text = "这是一个简短的测试！呸！"最终列表stopWords = Arrays.asList("short","test");final CharArraySet ..

发布时间：2022-01-15 13:02:45 java lucene stop-words Java开发

如何使用多短语查询?

http://lucene.apache.org/java/2_3_1/api/core/org/apache/lucene/search/MultiPhraseQuery.html 对于示例“Microsoft app*"，他说使用 IndexReader.term() 但返回 TermEnum，我如何将它放入 MultiPhraseQueryParser ? 编辑: 或者有人 ..

发布时间：2022-01-15 13:02:29 java lucene Java开发

Neo4j 中带空格的全文搜索

当 neo4j lucene 自动索引处于精确模式(默认)时，查询类型: start n=node:node_auto_index('name:asfd\\ a*') return n 正常工作(例如，假设您有一个名为 asdf adsf 的节点. 但是，在 ..

发布时间：2022-01-15 13:02:19 lucene neo4j full-text-search cypher 其他开发

无法使用 lucene IndexWriter.deleteDocuments(term) 删除文档

这两天一直在苦苦挣扎，就是无法用indexWriter.deleteDocuments(term) 删除文档这里我会放上做测试的代码，希望有人能指出我做错了什么，已经尝试过的事情: 将 lucene 版本从 2.x 更新为 5.x 使用 indexWriter.deleteDocuments() 代替 indexReader.deleteDocuments() 将 indexOpt ..

发布时间：2022-01-15 13:02:10 java lucene Java开发

带有边界的Lucene邻近搜索?

有没有办法执行有界的邻近搜索，不是由固定数量的标记，而是由某种类型的 2 个标记标记?例如，要实现以单个句子或段落为边界的邻近查询?显然分析器必须支持它，但以前是否做过，如何做? 解决方案 SpanPositionCheckQuery 是一个定义跨度查询的抽象类，它检查是否匹配的跨度通过位置检查.具体实现包括检查匹配是否在定义的位置范围内的 SpanPositionRangeQuery 和 ..

发布时间：2022-01-15 13:02:02 lucene proximity 其他开发

分析后如何读取 Lucene 文档字段标记?

如果我创建一个文档并添加一个既可存储又可分析的字段，我如何才能将该字段作为令牌列表读回?我有以下内容: 文档 doc = new Document();doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));doc.add(new Field("text", fileContent, Store.YES, Index ..

发布时间：2022-01-15 13:01:57 lucene 其他开发

Lucene 4.2 字符串字段

我是 Lucene 的新手.我有两个文档，并且我希望对名为“关键字"的文档字段进行完全匹配(该字段可能在文档中出现多次). 第一个文档包含关键字“注释很酷".第二个文档包含关键字“注释也很酷".当我搜索“Annotation is cool"时，如何构建查询以便只找到第一个文档? 我读过一些关于“StringField"的内容，并且它没有被标记化.如果我在“addDoc"方法中将“关键 ..

发布时间：2022-01-15 13:01:48 lucene 其他开发

Lucene 4.0 IndexWriter updateDocument 用于数字项

我只是想知道如何根据数字字段更新(删除/插入)文档.到目前为止，我这样做了: LuceneManager.updateDocument(writer, new Term("id", NumericUtils.intToPrefixCoded(sentenceId)), newDoc); 但现在在 Lucene 4.0 中，NumericUtils 类已更改为 this 我不太明白.有什么帮助吗 ..

发布时间：2022-01-15 13:01:42 java lucene indexing Java开发

是否可以在一个 JVM 中运行多个地图任务?

我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让多个 map/reduce 任务共享同一个 JVM? 解决方案通过指定作业配置mapred.job.reuse.jvm.num.tasks，作业可以使任务JVM被重用.如果值为 1(默认值)，则不重用 JVM(即每个 JVM 1 个任务).如果为 -1，则 JVM 可以运行(同一个作业) ..

发布时间：2022-01-15 13:01:32 lucene jvm hadoop hadoop-plugins 其他开发

是什么导致错误'一个 SPI 类型的 lucene.codecs.Codec 名称'Lucene42'

无法弄清楚是什么原因导致“不存在名称为“Lucene42"的 org.apache.lucene.codecs.Codec 类型的 SPI 类.您需要将支持此 SPI 的相应 JAR 文件添加到您的类路径中' 任何帮助将不胜感激 java.lang.IllegalArgumentException:不存在名称为“Lucene42"的 org.apache.lucene.codecs.Cod ..

发布时间：2022-01-15 13:01:23 java lucene jboss7.x Java开发

将 CharFilter 与 Lucene 4.3.0 的 StandardAnalyzer 一起使用

我正在尝试将 CharFilter 添加到我的 StandardAnalyzer.我的意图是从我索引的所有文本中去掉标点符号；例如，我希望 PrefixQuery "pf" 匹配 "P.F. Chang's" 或 "zaras" 匹配 "Zara's". 似乎这里最简单的攻击计划是在分析之前过滤掉所有标点符号.根据 Analyzer 软件包文档，这意味着我应该使用 CharFilter. ..

发布时间：2022-01-15 13:01:10 java lucene Java开发

在elasticsearch中转义特殊字符

我正在使用 elasticsearch python 客户端对 elasticsearch 实例进行一些查询我们正在托管. 我注意到有些字符需要转义.具体来说，这些... + - &&||！( ) { } [ ] ^ " ~ * ? : \ 除了我已经想到的之外，有没有一种干净的方法可以做到这一点?当然有比做更清洁的方法术语.replace("+", "\+").代替("-"， " ..

发布时间：2022-01-15 13:01:02 python elasticsearch replace lucene escaping Python

如何查看 Lucene 索引

我正在尝试学习和理解 lucene 的工作原理，以及 lucene 索引中的内容.基本上我想看看数据在 lucene 索引中是如何表示的? 我使用 lucene-core 8.6.0 作为依赖项下面是我非常基本的 Lucene 代码 private Document create(File file) throws IOException {文档文档 = 新文档()；Field ..

发布时间：2022-01-15 13:00:56 lucene luke 其他开发

休眠拦截器 - 加载事件之后

加载实体后是否发生任何事件?我的目标是将此实体添加到 Solr 或 Lucene 索引.EmptyInterceptor OnLoad 事件在对象初始化之前发生.我想在设置对象属性后处理一个事件.是否可以使用 Hibernate 拦截器或其他东西? 解决方案 @PostLoad 似乎可以完成这项工作(请参阅社区文档).如果您在实体中使用 this 注释方法，则应在加载实体后触发. ..

发布时间：2022-01-15 13:00:48 java hibernate solr lucene interceptor Java开发

Lucene 精确排序

我在不太了解如何实现一个像样的 Lucene 排序或排名方面遇到了这个长期问题.假设我有一个城市及其人口的列表.如果有人搜索“新"或“伦敦"，我想要按人口排序的前缀匹配列表，并且我使用前缀搜索和反转的按字段排序，其中有一个人口字段，即纽约新墨西哥州;或伦敦，伦敦德里. 但是，我也总是希望完全匹配的名称位于顶部.因此，在“伦敦"的情况下，列表应该显示“伦敦，伦敦，伦敦德里"，其中第一个伦敦在英 ..

发布时间：2022-01-15 13:00:38 lucene 其他开发

在 Lucene 中获取文档 ID

在 lucene 中，我可以做到以下几点 doc.GetField("mycustomfield").StringValue(); 这会检索索引文档中列的值. 我的问题，对于同一个'doc'，有没有办法获取Doc.身份证 ?卢克展示了它，因此必须有办法解决这个问题.我需要它来删除有关更新的文档. 我搜索了文档，但没有找到要在 GetField 中使用的术语，或者是否已经有其他方法. ..

发布时间：2022-01-15 13:00:29 .net lucene lucene.net C#/.NET

Solr - 最常见的搜索词

我正在尝试组织一个 solr 搜索引擎.我已经设置了拼写错误系统和建议. 但是我似乎无法找到如何检索 solr/lucene 中搜索最多的前 10 个单词/术语/关键字.我怎样才能得到这个?我想在我的主页上显示这些. 解决方案 Solr 不提供这种开箱即用的功能.有 StatsComponent，它为您提供各种统计信息，但所有这些都只是数字. 根据您访问 solr 的方式(直接 ..

发布时间：2022-01-15 13:00:03 search solr lucene 其他开发

lucene相关内容