lucene相关内容
我正在寻找一种使用 Apache Lucene 编写自定义索引的方法(准确地说是 PyLucene,但 Java 的答案很好). 我想做的是:当向索引添加文档时,Lucene 会对其进行标记,删除停用词等.如果我不是,通常使用 Analyzer 来完成搞错了. 我想要实现的是以下内容:在 Lucene 存储给定术语之前,我想执行查找(例如,在字典中)以检查是否保留该术语或丢弃它(如果该
..
你好 我有经常使用新记录更新的 lucene 索引,我的索引中有 5,000,000 条记录,并且我正在使用 FieldCache 缓存我的数字字段之一.但是在更新索引后,再次重新加载 FieldCache 需要时间(我正在重新加载缓存,因为文档说 DocID 不可靠)所以我怎样才能通过仅将新添加的 DocID 添加到 FieldCache 来最小化这种开销,导致此功能成为我的瓶颈应用. In
..
我是 Lucene.Net 的新手,目前正在进行研发以将其用于 .Net 应用程序.由于 Lucene.Net 是一个通用库,它与 SQL Server、SQLite 等数据源无关.它只知道你有一个你想要索引的 Lucene 文档.因此,当我们将数据从任何数据源转储到 Lucene.Net 时.当数据在 SQL 数据库中时,我们如何使 Lucene.Net 文档保持最新(例如).保持两种数据(即(
..
我正在使用 Apache 的 Lucene (8.6.3) 和以下 Java 8 代码: private static final String CONTENTS = "contents";final String text = "这是一个简短的测试!呸!"最终列表stopWords = Arrays.asList("short","test");final CharArraySet
..
http://lucene.apache.org/java/2_3_1/api/core/org/apache/lucene/search/MultiPhraseQuery.html 对于示例“Microsoft app*",他说使用 IndexReader.term() 但返回 TermEnum,我如何将它放入 MultiPhraseQueryParser ? 编辑: 或者有人
..
当 neo4j lucene 自动索引处于精确模式(默认)时,查询类型: start n=node:node_auto_index('name:asfd\\ a*') return n 正常工作(例如,假设您有一个名为 asdf adsf 的节点. 但是,在
..
这两天一直在苦苦挣扎,就是无法用indexWriter.deleteDocuments(term) 删除文档 这里我会放上做测试的代码,希望有人能指出我做错了什么,已经尝试过的事情: 将 lucene 版本从 2.x 更新为 5.x 使用 indexWriter.deleteDocuments() 代替 indexReader.deleteDocuments() 将 indexOpt
..
有没有办法执行有界的邻近搜索,不是由固定数量的标记,而是由某种类型的 2 个标记标记?例如,要实现以单个句子或段落为边界的邻近查询?显然分析器必须支持它,但以前是否做过,如何做? 解决方案 SpanPositionCheckQuery 是一个定义跨度查询的抽象类,它检查是否匹配的跨度通过位置检查.具体实现包括检查匹配是否在定义的位置范围内的 SpanPositionRangeQuery 和
..
如果我创建一个文档并添加一个既可存储又可分析的字段,我如何才能将该字段作为令牌列表读回?我有以下内容: 文档 doc = new Document();doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));doc.add(new Field("text", fileContent, Store.YES, Index
..
我是 Lucene 的新手.我有两个文档,并且我希望对名为“关键字"的文档字段进行完全匹配(该字段可能在文档中出现多次). 第一个文档包含关键字“注释很酷".第二个文档包含关键字“注释也很酷".当我搜索“Annotation is cool"时,如何构建查询以便只找到第一个文档? 我读过一些关于“StringField"的内容,并且它没有被标记化.如果我在“addDoc"方法中将“关键
..
我只是想知道如何根据数字字段更新(删除/插入)文档.到目前为止,我这样做了: LuceneManager.updateDocument(writer, new Term("id", NumericUtils.intToPrefixCoded(sentenceId)), newDoc); 但现在在 Lucene 4.0 中,NumericUtils 类已更改为 this 我不太明白.有什么帮助吗
..
我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让多个 map/reduce 任务共享同一个 JVM? 解决方案 通过指定作业配置mapred.job.reuse.jvm.num.tasks,作业可以使任务JVM被重用.如果值为 1(默认值),则不重用 JVM(即每个 JVM 1 个任务).如果为 -1,则 JVM 可以运行(同一个作业)
..
无法弄清楚是什么原因导致“不存在名称为“Lucene42"的 org.apache.lucene.codecs.Codec 类型的 SPI 类.您需要将支持此 SPI 的相应 JAR 文件添加到您的类路径中' 任何帮助将不胜感激 java.lang.IllegalArgumentException:不存在名称为“Lucene42"的 org.apache.lucene.codecs.Cod
..
我正在尝试将 CharFilter 添加到我的 StandardAnalyzer.我的意图是从我索引的所有文本中去掉标点符号;例如,我希望 PrefixQuery "pf" 匹配 "P.F. Chang's" 或 "zaras" 匹配 "Zara's". 似乎这里最简单的攻击计划是在分析之前过滤掉所有标点符号.根据 Analyzer 软件包文档,这意味着我应该使用 CharFilter.
..
我正在使用 elasticsearch python 客户端 对 elasticsearch 实例进行一些查询我们正在托管. 我注意到有些字符需要转义.具体来说,这些... + - &&||!( ) { } [ ] ^ " ~ * ? : \ 除了我已经想到的之外,有没有一种干净的方法可以做到这一点?当然有比做更清洁的方法 术语.replace("+", "\+").代替("-", "
..
我正在尝试学习和理解 lucene 的工作原理,以及 lucene 索引中的内容.基本上我想看看数据在 lucene 索引中是如何表示的? 我使用 lucene-core 8.6.0 作为依赖项 下面是我非常基本的 Lucene 代码 private Document create(File file) throws IOException {文档文档 = 新文档();Field
..
加载实体后是否发生任何事件?我的目标是将此实体添加到 Solr 或 Lucene 索引.EmptyInterceptor OnLoad 事件在对象初始化之前发生.我想在设置对象属性后处理一个事件.是否可以使用 Hibernate 拦截器或其他东西? 解决方案 @PostLoad 似乎可以完成这项工作(请参阅 社区文档).如果您在实体中使用 this 注释方法,则应在加载实体后触发.
..
我在不太了解如何实现一个像样的 Lucene 排序或排名方面遇到了这个长期问题.假设我有一个城市及其人口的列表.如果有人搜索“新"或“伦敦",我想要按人口排序的前缀匹配列表,并且我使用前缀搜索和反转的按字段排序,其中有一个人口字段,即纽约新墨西哥州;或伦敦,伦敦德里. 但是,我也总是希望完全匹配的名称位于顶部.因此,在“伦敦"的情况下,列表应该显示“伦敦,伦敦,伦敦德里",其中第一个伦敦在英
..
在 lucene 中,我可以做到以下几点 doc.GetField("mycustomfield").StringValue(); 这会检索索引文档中列的值. 我的问题,对于同一个'doc',有没有办法获取Doc.身份证 ?卢克展示了它,因此必须有办法解决这个问题.我需要它来删除有关更新的文档. 我搜索了文档,但没有找到要在 GetField 中使用的术语,或者是否已经有其他方法.
..
我正在尝试组织一个 solr 搜索引擎.我已经设置了拼写错误系统和建议. 但是我似乎无法找到如何检索 solr/lucene 中搜索最多的前 10 个单词/术语/关键字.我怎样才能得到这个?我想在我的主页上显示这些. 解决方案 Solr 不提供这种开箱即用的功能.有 StatsComponent,它为您提供各种统计信息,但所有这些都只是数字. 根据您访问 solr 的方式(直接
..