lucene相关内容
简单问题:如何让Lucene的StandardAnalyzer在分析我的句子时不去掉停用词? 解决方案 答案取决于版本.对于 Lucene 3.0.3(当前),您需要使用一组空的停用词来构造 StandardAnalyzer,使用如下内容: Analyzer ana = new StandardAnalyzer(LUCENE_30, Collections.emptySet());
..
我需要提高 Lucene 搜索查询的性能.我可以使用 RAMDirectory 吗?它会优化性能吗?是否有任何索引大小限制?如果有人能列出使用 RAMDirectory 的优缺点,我将不胜感激. 谢谢. 解决方案 我比较FSDirectory和RAMDirectory. 索引大小为 1.4G Centos,5G 内存 搜索1000个关键词,平均/最小/最大响应时间(ms
..
在 Elasticsearch 中执行相当于 SQL 联接的最佳方法是什么? 我有一个包含两个大表的 SQL 设置:Persons 和 Items.一个人可以拥有许多项.Person 和 Item 行都可以更改(即更新).我必须运行搜索,根据人和项目的各个方面进行过滤. 在 Elasticsearch 中,您可以将 Person 设为 Item 的嵌套文档,然后使用 has_child
..
我尝试使用 DateTools.dateToString() 方法来索引日期.它可以正常用于索引和搜索. 但是我已经索引的数据有一些引用,它已经将 Date 索引为一个新的 Date().getTime(). 所以我的问题是如何对这些数据执行 RangeSearch Query... 有什么解决办法吗??? 提前致谢. 解决方案 您需要在日期字段上使用 TermRa
..
Lucene 是否能够索引 500M 的文本文档,每个文档大小为 50K? 对于单项搜索和 10 项搜索,此类索引的预期性能如何? 我应该担心并直接转移到分布式索引环境吗? 萨尔 解决方案 是的,Lucene 应该可以处理这个问题,根据下面的文章:http://www.lucidimagination.com/content/scaling-lucene-and-solr
..
我正在处理 6B 小文档的 ES 集群,以 6.5K 索引组织,总共 6TB.索引在 7 个服务器之间复制和分片.索引占用率从几 KB 到数百 GB 不等. 在使用 ES 之前,我使用的是具有相同文档组织的 Lucene. 基于 Lucene 的应用程序很快就恢复了.事实上,当查询到达时,索引是延迟加载的,然后 IndexReader 被缓存,以加快未来的回复速度. 现在,使用
..
我们正在设置一个 Solr 来索引文档,其中标题字段可以是各种语言.谷歌搜索后,我发现了两个选项: 定义不同的架构字段每种语言,即title_en,title_fr,... 应用不同的过滤到每种语言然后查询标题字段之一对应的语言. 创作不同的 Solr 内核来处理每个语言并进行我们的应用查询正确的 Solr 核心. 哪个更好?有什么大起大落? 谢谢 解决方案 还有第三种
..
我在 solR 中创建了一个名为“testcore"的新核心,但是在 solR 6.0 中我无法在 conf 文件夹中找到 Schema.xml 文件,所以我应该手动创建它还是它会自动配置自己? 我想从示例文档中索引一个示例,所以要索引它我应该提到 Schema.xml 文档,否则它会自动发生,因为 solR 6 是无模式的. 我正在努力学习本教程 https://example
..
是否可以使用 Lucene 作为成熟的数据存储(像其他(mongo,couch)nosql 变体). 我知道有一些限制,例如一个索引器新更新的文档不会显示在其他索引器中.所以我们需要重启索引器来获取更新. 但我最近偶然发现了 solr,似乎通过某种快照复制可以避免这些问题. 所以我认为我可以使用 lucene 作为数据存储,因为这也使用 mongo 和 couch 内部使用的相同
..
我在使用 Lucene 索引时遇到问题,该索引的索引词包含“-"字符. 它适用于某些包含“-"的单词,但不适用于所有单词,我找不到原因,为什么它不起作用. 我正在搜索的字段经过分析并包含带有和不带有“-"字符的单词的版本. 我正在使用分析器:org.apache.lucene.analysis.standard.StandardAnalyzer 这里是一个例子: 如果
..
我们如何构造一个查询来搜索不为空的特定字段? field_name:* 不起作用.我试过 field_name:[a* to z*] 这适用于英语,但不涵盖所有语言. 还有其他建议吗? 解决方案 目前 Lucene 不支持.请参阅 this 进行讨论. 另一种选择可能是将一些预定义的字符串(如 nullnullnullnull)存储为字段值(如果它为空).然后您可以使用否
..
我的客户没有预算来设置和维护 SOLR 服务器以在其生产环境中使用.如果我正确理解了 Sitecore 7 内容搜索 API,那么配置使用 Lucene 并不是什么大问题.大部分配置类似,代码相同,以后可以换一个SOLR服务器. 网站建设有 多面搜索页面 在登陆页面和其他页面上列出将利用 Content Search API 的组件 具有自定义构面的存储桶 该网站有大约 5,
..
有人能解释一下 Elasticsearch 文档中“对象"和“嵌套"字段的区别吗? 我知道默认情况下字段被定义为对象.我也知道我可以使用这样的点访问对象字段:my_field.name、my_field.title 等. 对象文档:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-
..
如何在 Lucene 中找到给定文档的相似文档.我不知道文本是什么,我只知道文件是什么.有没有办法在lucene中找到类似的文件.我是新手,所以我可能需要一些手握. 解决方案 你可能要检查 lucene 的 MoreLikeThis 功能. MoreLikeThis 根据文档中的术语构造一个 lucene 查询,以在索引中查找其他相似文档. http://lucene.apac
..
尊敬的 stackoverflow 社区: 给定一些文本,我希望得到文本中最常用的 TOP 50 词,并从中创建一个标签云,从而以图形方式显示文本的要点. 文本实际上是一组 100 条左右的评论,每个 ITEM(一张图片)大约有 120 条,我还想保持云更新 - 通过保持评论索引,并在每次出现新的 Web 请求时使用云生成代码运行. 我决定使用 Solr 来索引文本,现在想知道如
..
上下文 这是一个主要关于 Lucene(或可能是 Solr)内部的问题.主要主题是分面搜索,其中可以沿着对象的多个独立维度(方面)进行搜索(例如汽车的大小、速度、价格). 当使用关系数据库实现时,对于大量构面,多字段索引没有用,因为可以按任何顺序搜索构面,因此使用特定有序多索引的机会很小,并创建所有可能的排序指数难以忍受. Solr 被宣传为可以很好地应对分面搜索任务,如果我认为
..
我在 lucene 3.5 contrib 文件夹中找到了两个插件:一个是分组,另一个是 facet.在我的选择中,它们都用于将我的文档分成不同的类别.为什么 lucene 现在有两个插件呢? 解决方案 它们是两个不同的 lucene 特性: Grouping 首次发布于 Lucene 3.2,其相关的 jira 问题是 LUCENE-1421:允许按指定字段对搜索结果进行分组.例如
..
我们有一个电影和连续剧数据库,并且由于数据来自许多不同可靠性的来源,我们希望能够对剧集的标题进行模糊字符串匹配.我们在应用程序中使用 Solr 进行搜索,但默认匹配机制在单词级别上运行,这对于短字符串(如标题)来说不够好 我过去使用过 n-gram 近似匹配,我很高兴发现 Lucene(和 Solr)支持开箱即用的东西.不幸的是,我无法正确配置它. 我认为我需要一个特殊的字段类型,所以
..
对于 HTML 和 XML 文档(本地或基于 Web)并在 Lucene/Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的. 解决方案 在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用.新的 DataImportHandler 是导入结构化数据的良好第一步,但 Solr 没有一个好的文档摄取管道.Nutch 确实有效,但是 Nut
..
运行此查询时: {“请求参数" : {“查询":“文本",“字段":[“字段 1",“字段 2"]}} - {“多匹配":{“查询":“文本",“字段":[“字段 1",“字段 2"]}} 有什么区别?什么时候用一个,什么时候用另一个? 解决方案 query_string 支持 Lucene 语法来解释文本,其中 multi_match 只是尝试将给定的 "text" 与列出的字段
..