lucene相关内容

Lucene 上打开的文件太多错误

我正在进行的项目是索引一定数量的数据(带有长文本)并将它们与每个间隔(大约 15 到 30 分钟)的单词列表进行比较. 一段时间后,比如第 35 轮,在第 36 轮开始索引新数据集时出现此错误: [ERROR] (2011-06-01 10:08:59,169) org.demo.service.LuceneService.countDocsInIndex(?:?):countDocsI ..
发布时间:2022-01-15 13:20:09 服务器开发

如何使用 couchdb-lucene 在 CouchDB 中索引数组(标签)

设置: 我有一个使用 CouchDB 的项目.文档将有一个名为“标签"的字段.这个“tags"字段是一个字符串数组(例如,“tags":[“tag1",“tag2",“etc"]).我正在使用 couchdb-lucene 作为我的搜索提供程序. 问题: 用什么函数可以让couchdb-lucene对“tags"的元素进行索引? 如果你有想法但没有测试环境,打出来,我试试, ..
发布时间:2022-01-15 13:19:59 其他开发

在 ElasticSearch 中保存用户搜索查询的最佳方法是什么?

我正在开发使用 ElasticSearch 和 SQL 数据库的应用程序.那么,保存用户搜索查询并显示统计信息(例如最受欢迎的请求是什么)的最佳方法是什么?简单的方法是保存在 SQL 数据库中并计数.但也许 ElasticSearch 中内置了一些技术? 解决方案 您可以通过在 ES 集群中创建第二个索引来做到这一点.当用户通过您的应用程序提交搜索时,您需要执行两个步骤. 将搜索作为 ..
发布时间:2022-01-15 13:19:51 数据库

在包含 1 亿个字符串的大型文本文件中进行高效的子字符串搜索(无重复字符串)

我有一个包含 1 亿个字符串(没有重复字符串)的大型文本文件(1.5 Gb),并且所有字符串在文件中逐行排列.我想在java中制作一个wepapplication,以便当用户给出关键字(子字符串)时,他可以获得包含该关键字的文件中存在的所有字符串的计数.我已经知道一种技术 LUCENE..还有其他方法可以做到这一点吗??我希望在 3-4 秒内得到结果.我的系统有 4GB 内存和双核配置....需要 ..
发布时间:2022-01-15 13:19:38 Java开发

在 Lucene 中正确索引纬度和经度值

我正在使用 Lucene API 开发“在给定半径内基于​​美国的最近城市搜索"功能.我在 Lucene 中索引城市的纬度和经度值如下: doc.Add(new Field("latitude", paddedLatitude, Field.Store.YES, Field.Index.UN_TOKENIZED));doc.Add(new Field("longitude", paddedLon ..
发布时间:2022-01-15 13:19:31 其他开发

如何对用 lucene 索引的文档进行分类

我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档? 解决方案 从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器. 缺 ..
发布时间:2022-01-15 13:19:07 Java开发

为什么路由不适用于 ElasticSearch Bulk API?

我正在向 ElasticSearch 设置批量请求并指定要路由到的分片. 但是当我运行它时,文档会被发送到不同的分片. 这是 ElasticSEarch 批量中的错误吗?当我只索引一个文档时它就可以工作.它在我搜索时有效.但不是在我进行批量导入时. 复制: curl -XPOST 'http://192.168.1.115:9200/_bulk?routing=a' -d '{ ..
发布时间:2022-01-15 13:19:01 其他开发

可以在 Elasticsearch 中存储图像吗?

是否可以在 Elasticsearch 集群中存储图像?如果是,那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB),我们计划使用 HDFS. 解决方案 将整个图像存储在 Elasticsearch 中并没有什么好处,因为如果图像被缩放/裁剪然后用作 ..
发布时间:2022-01-15 13:18:54 其他开发

Solr 关联

最近几天,我们正在考虑使用 Solr 作为我们选择的搜索引擎.我们需要的大多数功能都是开箱即用的,或者可以轻松配置.然而,我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏(或缺失)了. 我会尝试用一个例子来解释.我们有很多实际上是企业的文件: Apache1...麦当劳2... ..
发布时间:2022-01-15 13:18:46 其他开发

Lucene IndexWriter 添加文档速度慢

我编写了一个小循环,将 10,000 个文档添加到 IndexWriter 中,并且花了很长时间才完成. 还有其他方法可以索引大量文档吗? 我问是因为当它上线时,它必须加载 15,000 条记录. 另一个问题是如何避免在重新启动 Web 应用程序时再次加载所有记录? 编辑 这是我使用的代码; for (int t = 0; t ..
发布时间:2022-01-15 13:18:38 C#/.NET

使用 Lucene 搜索 API 查找完全匹配

我正在使用 Lucene 开发公司搜索 API.我的 Lucene 公司索引有 2 家公司:1.Abigail Adams National Bancorp, Inc.2.国民银行 如果用户键入 National Bancorp,则只应返回公司#2(即 National Bancorp)而不是#1.....即.只应返回完全匹配.如何实现此功能? 感谢阅读. 解决方案 可以使用K ..
发布时间:2022-01-15 13:18:31 其他开发

Solr:结合 EdgeNGramFilterFactory 和 NGramFilterFactory

我遇到需要同时使用 EdgeNGramFilterFactory 和 NGramFilterFactory 的情况. 我正在使用 NGramFilterFactory 执行“包含"样式搜索,最小字符数为 2.我还想搜索第一个字母,例如带有前端 EdgeNGramFilterFactory 的“startswith". 我不想将 NGramFilterFactory 降低到最少 1 个字 ..
发布时间:2022-01-15 13:18:22 Java开发

lucene 如何与 Neo4j 一起工作

我是 Neo4j 和 Solr/Lucene 的新手.我读过我们可以在 Neo4j 中使用 lucene 查询,这是如何工作的?Neo4j中使用lucene查询有什么用? 我还需要一个建议.我需要编写一个应用程序来搜索和分析数据.这可能对我 Neo4j 或 Solr 有帮助吗? 解决方案 Neo4J 使用 lucene 作为其 遗留索引.目前,Neo4J 支持多种索引,比如在节点上创 ..
发布时间:2022-01-15 13:18:12 其他开发

加入 Lucene

有没有办法在 Lucene 中实现 JOINS? 解决方案 您可以手动进行通用连接 - 运行两次搜索,获取所有结果(而不是前 N 个),在您的连接键上对它们进行排序并与两个有序列表相交.但这会让你的堆变得非常困难(如果列表甚至适合它). 有可能的优化,但在非常特定的条件下. IE.- 你做一个自加入,并且只使用(随机访问)Filters 进行过滤,没有Queries.然后,您可以手 ..
发布时间:2022-01-15 13:18:05 其他开发

向 Lucene 文档添加多值字符串字段,逗号重要吗?

我正在构建一个 Lucene 索引并添加文档. 我有一个多值字段,在本例中我将使用类别. 一个项目可以有很多类别,例如,牛仔裤可以属于服装、裤子、男装、女装等. 将字段添加到文档时,逗号会有所不同吗?Lucene 会直接忽略它们吗?如果我将逗号更改为空格会有所不同吗?这会自动使该字段成为多值吗? String categoriesForItem = getCategories( ..
发布时间:2022-01-15 13:17:37 Java开发

ElasticSearch 在哪里存储持久设置?

当我通过 获取我的 ElasticSearch 服务器设置时 curl -XGET localhost:9200/_cluster/settings 我看到了持久性和暂时性设置. {“执着的": {“cluster.routing.allocation.cluster_concurrent_rebalance":“0","threadpool.index.size": "20","thre ..
发布时间:2022-01-15 13:17:31 其他开发