lucene相关内容
我实际上正在从事一个 Symfony 项目,我们正在使用 Lucene 作为我们的搜索引擎.我试图使用 SQLite 内存数据库进行单元测试(我们使用的是 MySQL),但我偶然发现了一些东西. 项目的搜索引擎部分使用 Lucene 索引.基本上,您查询它并获得一个有序的 id 列表,您可以使用 Where In() 子句查询您的数据库.问题是查询中有一个 ORDER BY Field(id
..
所以我第一次尝试使用 Luke,但遇到了一些麻烦.我将它指向我想要的目录,但是看到这个: org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:SimpleFSIndexInput(path="C:\Users*me*\Chat Data\chat-data\index\segments.gen")):-3(需要在-2和-
..
我有一个应用程序进行前缀搜索有一段时间了.最近索引大小增加了,结果发现某些前缀太多,以至于 lucene 无法处理.它一直给我一个 Too Many Clauses 错误,这非常令人沮丧,因为我一直在查看我的 JAR 并确认包含的代码实际上都没有使用布尔查询. 为什么它不抛出类似 Too Many Hits 的异常?当我肯定只使用前缀查询时,为什么增加布尔查询的静态最大子句整数实际上会使这个
..
我正在使用 Lucene.Net 2.0 来索引数据库表中的某些字段.其中一个字段是允许特殊字符的“名称"字段.当我执行搜索时,它找不到包含带有特殊字符的术语的文档. 我这样索引我的字段: Directory DALDirectory = FSDirectory.GetDirectory(@"C:\Indexes\Name", false);Analyzer 分析器 = new Stand
..
我使用 lucene 搜索,但 lucene 有一堆特殊字符可以转义,例如: - &&||!( ) { } [ ] ^ " ~ * ? : \ 我在转义这些字符时遇到问题,因为它们太多了,如果我使用 String.replaceAll() 方法,我最终会得到很长的代码行来转义字符.最好的方法是什么?谢谢! 解决方案 还有一个方法叫QueryParser#escape,这可能有用:
..
我正在尝试使用 function_score 中定义的不同函数修改来自正常查询的分数. 为了找出我的函数计算出的分数,我将“boost_mode"指定为“replace".但是,这会使所有分数保持不变:都等于 1. 考虑以下查询: {“询问": {“功能分数":{“询问": {“条款":{“名称":[“男人",“女人"]}},“score_mode":“平均",“职能": [{“筛选
..
我正在使用 solr 自动完成功能,我正在使用 solr 4.50 来构建我的应用程序,并且我正在关注 this 链接作为参考.我的建议组件是这样的 建议
..
我是 lucene 的新手,我想使用包含纯文本以及属性和许多 xml 标签的大型 xml 文件(15GB)的 lucene 进行索引.如何使用带有任何示例的 lucene 解析和索引这个 xml 文件,如果我们使用 lucene,我们需要任何数据库 如何使用 lucene 解析和索引巨大的 xml 文件?任何示例或链接都将有助于我理解该过程.另一个,如果我使用 lucene,我是否需要任何数
..
我在共享主机上的 ASP.NET 应用程序中使用 Lucene.Net.得到了如下所示的堆栈跟踪.有什么工作? [SecurityException: 请求“System.Security.Permissions.EnvironmentPermission, mscorlib, Version=2.0.0.0, Culture=neutral, PublicKeyToken=b77a5c56
..
这个问题在neo4j-legacy-indexes-and-auto-index-vs-new-label-bases-schema-indexes和the-difference-between-legacy-索引自动索引和新的索引方法 我还不能对它们发表评论并在这里写一个新线程.在我的数据库中,我有一个旧索引“主题"和标签“主题". 我知道: 一个.pattern MATCH
..
我现在有一个问题,这个是关于 lucene 的.我试图制作一个可以进行索引并将它们首先存储在内存中的 lucene 源代码使用 RAMDirectory,然后将内存中的该索引刷新到磁盘中使用 FSDirectory.我对这段代码做了一些修改,但是徒劳无功.也许你们中的一些人可以帮帮我. 那么对我来说,将 RAMDirectory 集成到此源中的最佳方式是什么?将它们放入 FSDirector
..
在一些博客和 lucene 网站中,我知道 lucene 在倒排索引中使用数据结构“跳过列表".但我对此有些疑惑. 1:一般情况下,跳过列表可能会在内存中使用,但倒排索引存储在磁盘中.那么 lucene 在索引搜索时是如何使用它的呢?只是在磁盘上扫描或加载到内存中? 2:skip list的插入操作符经常使用random(0,1)来决定是否插入到下一级,但是在luncene的介绍中,似
..
我正在尝试匹配 TITLE 列中的文本Config migration from ASA5505 8.2 to ASA5516. 我的程序是这样的. 目录目录 = FSDirectory.open(indexDir);MultiFieldQueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_35,new Str
..
我尝试使用 1、2、3、4 GB 内存启动该进程,但仍然出现相同的错误.有小费吗?gc 日志显示它正在运行 GC,即使它有足够的内存.但可能这个错误与使用 NIO 的内存映射文件有关.有人以前见过这样的事情吗?如果是这样,您是如何解决的? $ java -d64 -server -Xmx15g -Xms15g -XX:+UseConcMarkSweepGC -verbose:gc -XX:Max
..
能否请您就 lucene 性能应遵循的步骤提出建议.尤其是大数据(大约 1TB 的 pdf 文件要被索引) 解决方案 阅读 扩展 Lucene 和 Solr. 从 Lucene 定义您的需求(例如:您正在为 PDF 编制索引 - 您需要存储全文,只是为了使其可搜索,还是根本不需要?) 做一个小规模的实验——索引几个文档,看看检索是否足够好. 尝试对整个内容进行索引(考虑论文中关于快速
..
Lucene 是否提供了一种增加新文档的方法? 例如,假设 Lucene 文档包含一个日期字段.是否有可能在不让用户改变她的查询的情况下,以更高的分数呈现最新的文档? 我不想采用粗略的“按日期排序"解决方案,因为它会完全取消评分算法. 解决方案 将文档放入索引时使用 Document.setBoost(float value). 您可以不断地重新调整现有文档上的值,或者拥
..
我们正在对包含 260 万条记录的表使用 SQL Server 2008 R2 全文搜索.搜索性能通常很差,它遵循通常报告的模式:冷系统/第一次运行 ~10+ 秒,后续运行 ~1-2 秒.这与 2013 年 2 月以下文章中报告的结果一致: 所以你认为你可以搜索 - 比较 Microsoft SQL Server FTS和 Apache Lucene 文章展示了以下使用维基百科转储数据
..
我在 Lucene 5.0 中对字符串字段进行排序时遇到问题.显然,自 Lucene 4 以来您可以进行排序的方式已经改变.下面显示了一些正在为我的文档编制索引的字段的片段. @Override公共文档生成文档(流程实体){文档文档 = 新文档();doc.add(new IntField(id, entity.getID(), Field.Store.YES));doc.add(new Tex
..
我知道它需要浮点数,但结果中不同级别的提升有哪些典型值? 例如: 如果我想将文档的权重提高 10%,那么我应该将其设置为 1.1?20% 然后 1.2? 如果我开始将提升设置为 75.0 之类的值会怎样?还是 500.0? 编辑:固定格式 解决方案 请看Lucene 相似性文档 用于公式.原则上,在所有其他因素相同的情况下,将文档的提升设置为 1.1 确实会使其得分
..
希望对 Lucene 内部工作有足够洞察力的人能够为我指明正确的方向 =) 我将跳过大部分不相关的代码,直接进入正题.我有一个 Lucene 索引,我将以下字段添加到索引中(变量被它们的字面值替换): document.Add(new Field("Typenummer", "E5CEB501A244410EB1FFC4761F79E7B7",Field.Store.YES , Field
..