lucene相关内容

在lucene索引中计算单词频率

有人可以帮助我在所有lucene索引中找到单词频率吗? 例如,如果doc A有3个单词(B),而doc C有2个单词,我想返回一个方法,该方法返回5,表示所有Lucene索引中单词(B)的频率 解决方案 已多次询问: 获取Lucene中的术语频率 如何计算一组文档的术语频率? 从Lucene索引中获取频率最高的词条 如何获取solr词频? ..
发布时间:2020-05-04 07:27:58 其他开发

在Solr中超时查询

我命中了要通过自定义开发层进行Solr的查询,而我在该层中超时的一些查询仍在solr实例中. solr中是否有一个可用于使特定查询超时的参数 解决方案 如中所述客户端断开连接后,Solr查询是否继续?和写在Solr FAQ中 在内部,Solr不会使任何请求超时-它使更新和查询都需要花费很长时间才能完全处理. 但是在常见问题解答的同一位置写了 但是,用于运行Solr的ser ..
发布时间:2020-05-04 07:27:54 Java开发

有关与Lucene或Solr一起使用的蜘蛛工具的建议?

什么是针对HTML和XML文档(本地或基于Web)的良好爬网程序(蜘蛛),并且在Lucene/Solr解决方案空间中能很好地工作?可以基于Java,但不一定必须如此. 解决方案 在我看来,这是一个非常重要的漏洞,正在阻碍Solr的广泛采用.新的DataImportHandler是导入结构化数据的很好的第一步,但是Solr没有很好的文档提取管道. Nutch确实可以工作,但是Nutch搜寻器 ..
发布时间:2020-05-04 07:27:48 其他开发

Lucene搜寻器(需要建立Lucene索引)

我正在寻找用Java或其他任何语言编写的Apache Lucene Web搜寻器.搜寻器必须使用lucene并创建有效的lucene索引和文档文件,因此这就是例如取消了胡扯的原因. 有人知道这样的网络爬虫是否存在并且可以吗?如果答案是肯定的,我可以在哪里找到它. Tnx ... 解决方案 您要问的是两个组成部分: 网络爬虫 基于Lucene的自动索引器 首先要鼓起勇气: ..
发布时间:2020-05-04 07:27:44 Java开发

Lucene邻近搜索包含两个以上单词的短语

Lucene的手册已经清楚地解释了搜索包含两个单词的短语的含义,例如 http://lucene.apache.org/core/2_9_4/queryparsersyntax.html#Proximity Searches 但是,我想知道像"jakarta apache lucene"~10这样的搜索到底能做什么?是否允许相邻的单词最多相隔10个单词,或者所有相邻的单词都可以相隔10个单词 ..
发布时间:2020-05-04 07:27:42 Java开发

Lucene自定义评分的数字字段

除了在文本内容字段上具有tf-idf相似性的标准术语搜索之外,我还希望基于数字字段的“相似性"进行评分.这种相似性取决于查询和文档中的值之间的距离(例如,高斯,其中m = [用户输入],s = 0.5) 即假设文档代表人,而人员文档有两个字段: 说明(全文) 年龄(数字). 我想查找类似文件 说明:(x y z)年龄:30 但年龄不是过滤条件,而是分数的一部分(30 ..
发布时间:2020-05-04 07:27:38 其他开发

Zend Lucene和Java Lucene之间的性能比较

Zend Lucene 和Java Lucene是用PHP构建的和Java相对应,PHP语言比Java具有更高的层次. 想知道这两者之间在索引建立和数据搜索方面的性能差异有多大? 让java创建和重建索引,让php使用索引会更有效吗? 解决方案 这是Zend认证工程师的报价. 根据我的更好判断, 我为之工作的公司迁移了我们 以前的搜索解决方案 Zend_Search_Lu ..
发布时间:2020-05-04 07:27:34 PHP

Lucene.NET-按int排序

在最新版本的Lucene(或Lucene.NET)中,什么是按排序顺序返回搜索结果的正确方法? 我有一个这样的文件: var document = new Lucene.Document(); document.AddField("Text", "foobar"); document.AddField("CreationDate", DateTime.Now.Ticks.ToStrin ..
发布时间:2020-05-04 07:27:30 其他开发

错误404:可能访问/solr/update.原因:找不到

我遵循了 solr教程,并将默认collection1重命名为core1 ,但是当我遇到错误404时,尝试使用以下命令将XML导入solr: curl http://127.0.0.1:8983/solr/update --data-binary @monitor.xml -H 'Content-type:application/xml' 以下是回复: HTTP ERROR ..
发布时间:2020-05-04 07:27:26 其他开发

在Lucene中使用增量索引之后是否应该优化索引?

我们每7天对Lucene索引运行一次完整的重新索引(即从头开始创建索引),每2个小时左右运行一次增量索引.我们的索引大约有700,000个文档,一个完整的索引大约需要17个小时(这不是问题). 当我们执行增量索引时,我们仅索引过去两个小时内发生变化的内容,因此所花费的时间要少得多-大约半小时.但是,我们注意到,这段时间中的很多时间(可能是10分钟)都花在了运行IndexWriter.opti ..
发布时间:2020-05-04 07:27:22 其他开发

选择不同数量的cloudant/couchdb

我正在使用Cloudant启动一个项目. 这是一个简单的日志记录系统,因此我可以跟踪应用程序的使用情况. 我的文档如下: { app:“应用名称", 类型:“页面视图|登录|等.', 所有者:'电子邮件用户名', 设备:"iphone | android |等.', 日期: 'yyyy-mm-dd' } 我尝试进行一些地图缩小和多面搜索,但到目前为止找不到我想要的结果 ..
发布时间:2020-05-04 07:27:18 其他开发

查找由Lucene索引的术语列表

是否可以将Lucene索引中的所有术语列表提取为字符串列表?我在文档中找不到该功能.谢谢! 解决方案 Lucene 3: C#: C#Lucene获取所有索引 Java: IndexReader indexReader = IndexReader.open(path); TermEnum termEnum = indexReader.terms(); while (t ..
发布时间:2020-05-04 07:27:16 其他开发

MongoDB全文搜索与Lucene?

目前,MongoDB的全文本搜索与Lucene相比如何?该问题的原因是由于我不确定: a)在生产中使用mongo的FTS实施,因为它大约在6个月前仍处于测试阶段 和 b),因为lucene使用Java,它将引入另一个动态部分. 解决方案 在没有漫长的话题(可能不适合编程论坛)的情况下,我将尽力对此进行基本介绍,但仍会尝试涵盖要点 进入广泛比较时要考虑的主要事情是:“ ..
发布时间:2020-05-04 07:27:12 其他开发

如何标准化Lucene分数?

我需要对0到1之间的Lucene分数进行归一化. 例如,随机查询返回以下分数... 8.864665 2.792687 2.792687 2.792687 2.792687 0.49009037 0.33730242 0.33730242 0.33730242 0.33730242 最高分是多少? 10.0吗? 谢谢 解决方案 您可以将所有分数与最大分数相除, ..
发布时间:2020-05-04 07:27:06 其他开发

分页Lucene的搜索结果

我正在使用Lucene在Web应用程序中显示搜索结果. 搜索结果的范围从5000到10000甚至更多. 有人可以告诉我关于分页和缓存搜索结果的最佳策略吗? 解决方案 我建议您不要缓存结果,至少不要在应用程序级别缓存.不过,在具有大量内存的操作系统上运行Lucene很有用,操作系统可以将其用于文件缓存. 只需对每个页面使用不同的偏移量重复搜索即可.缓存会引入有状态性,最终会破坏性能.我 ..
发布时间:2020-05-04 07:27:02 其他开发

Solr查询-HTTP错误404未定义字段文本

我已经使用Solr下载随附的默认Jetty服务器在Ubuntu计算机上运行了Solr实例.每当我使用 启动Solr时 java -jar start.jar 服务器启动正常,但始终会引发异常: INFO: SolrDispatchFilter.init() done Apr 12, 2012 2:01:56 PM org.apache.solr.common.SolrExcep ..
发布时间:2020-05-04 07:27:01 其他开发

Solr部分和完整字符串匹配

我试图允许在Solr中搜索部分字符串,因此,如果有人搜索"ppopota",他们将获得与搜索"hippopotamus"相同的结果.我上下阅读了文档,觉得自己已经用尽了所有的选择.到目前为止,我有以下内容: 定义新的字段类型: ..
发布时间:2020-05-04 07:26:58 其他开发

如何在lucene中实现分页?

想知道如何在Lucene中实现分页,因为它本身并不支持分页.我基本上需要搜索“前10个条目"(基于某个参数),然后搜索“下10个条目",依此类推.同时,我不希望Lucene浪费记忆. 任何建议,将不胜感激. 预先感谢. 解决方案 您将需要应用自己的分页机制,类似于下面的内容. IList luceneDocuments = new List( ..
发布时间:2020-05-04 07:26:56 其他开发

将Nutch搜寻器与Solr结合使用

我可以将Apache Nutch搜寻器与Solr Index服务器集成吗? 编辑: 我们的一名开发人员从这些帖子中提出了解决方案 正在运行Nutch和Solr 运行Nutch和Solr的更新 答案 是 解决方案 如果您愿意升级到nutt 1.0,则可以使用Lucid Imagination在本文中介绍的solrindex: ..
发布时间:2020-05-04 07:26:52 其他开发