lucene相关内容
我正在进行的项目是索引一定数量的数据(带有长文本)并将它们与每个间隔(大约 15 到 30 分钟)的单词列表进行比较. 一段时间后,比如第 35 轮,在第 36 轮开始索引新数据集时出现此错误: [ERROR] (2011-06-01 10:08:59,169) org.demo.service.LuceneService.countDocsInIndex(?:?):countDocsI
..
设置: 我有一个使用 CouchDB 的项目.文档将有一个名为“标签"的字段.这个“tags"字段是一个字符串数组(例如,“tags":[“tag1",“tag2",“etc"]).我正在使用 couchdb-lucene 作为我的搜索提供程序. 问题: 用什么函数可以让couchdb-lucene对“tags"的元素进行索引? 如果你有想法但没有测试环境,打出来,我试试,
..
我正在开发使用 ElasticSearch 和 SQL 数据库的应用程序.那么,保存用户搜索查询并显示统计信息(例如最受欢迎的请求是什么)的最佳方法是什么?简单的方法是保存在 SQL 数据库中并计数.但也许 ElasticSearch 中内置了一些技术? 解决方案 您可以通过在 ES 集群中创建第二个索引来做到这一点.当用户通过您的应用程序提交搜索时,您需要执行两个步骤. 将搜索作为
..
在使用 Lucene Fuzzy Search 时如何获得匹配的模糊词及其偏移量? IndexSearcher mem = ....(一些标准代码)QueryParser parser = new QueryParser(Version.LUCENE_30, CONTENT_FIELD, 分析器);TopDocs topDocs = mem.search(parser.parse("wuzzy
..
我有一个包含 1 亿个字符串(没有重复字符串)的大型文本文件(1.5 Gb),并且所有字符串在文件中逐行排列.我想在java中制作一个wepapplication,以便当用户给出关键字(子字符串)时,他可以获得包含该关键字的文件中存在的所有字符串的计数.我已经知道一种技术 LUCENE..还有其他方法可以做到这一点吗??我希望在 3-4 秒内得到结果.我的系统有 4GB 内存和双核配置....需要
..
我正在使用 Lucene API 开发“在给定半径内基于美国的最近城市搜索"功能.我在 Lucene 中索引城市的纬度和经度值如下: doc.Add(new Field("latitude", paddedLatitude, Field.Store.YES, Field.Index.UN_TOKENIZED));doc.Add(new Field("longitude", paddedLon
..
在 Lucene 中,要获取一个术语周围的单词,建议使用 Span Queries.http://lucidworks.com 中有很好的演练/blog/accessing-words-around-a-positional-match-in-lucene/ 应该使用 getSpans() 方法访问跨度. SpanTermQueryfleceQ = new SpanTermQuery(ne
..
我正在使用以下环境在 基于 Lucene 的 Hibernate Search 上研究一些 POC: hibernate-search-engine-4.4.2.Final.jar lucene-core-3.6.2.jar MySQL 5.5 在域类上使用 @Indexed 注释. 在字段上使用 @Field(index=Index.YES, analyze=Analyze.YES
..
我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档? 解决方案 从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器. 缺
..
我正在向 ElasticSearch 设置批量请求并指定要路由到的分片. 但是当我运行它时,文档会被发送到不同的分片. 这是 ElasticSEarch 批量中的错误吗?当我只索引一个文档时它就可以工作.它在我搜索时有效.但不是在我进行批量导入时. 复制: curl -XPOST 'http://192.168.1.115:9200/_bulk?routing=a' -d '{
..
是否可以在 Elasticsearch 集群中存储图像?如果是,那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB),我们计划使用 HDFS. 解决方案 将整个图像存储在 Elasticsearch 中并没有什么好处,因为如果图像被缩放/裁剪然后用作
..
最近几天,我们正在考虑使用 Solr 作为我们选择的搜索引擎.我们需要的大多数功能都是开箱即用的,或者可以轻松配置.然而,我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏(或缺失)了. 我会尝试用一个例子来解释.我们有很多实际上是企业的文件: Apache1...麦当劳2...
..
我编写了一个小循环,将 10,000 个文档添加到 IndexWriter 中,并且花了很长时间才完成. 还有其他方法可以索引大量文档吗? 我问是因为当它上线时,它必须加载 15,000 条记录. 另一个问题是如何避免在重新启动 Web 应用程序时再次加载所有记录? 编辑 这是我使用的代码; for (int t = 0; t
..
我正在使用 Lucene 开发公司搜索 API.我的 Lucene 公司索引有 2 家公司:1.Abigail Adams National Bancorp, Inc.2.国民银行 如果用户键入 National Bancorp,则只应返回公司#2(即 National Bancorp)而不是#1.....即.只应返回完全匹配.如何实现此功能? 感谢阅读. 解决方案 可以使用K
..
我遇到需要同时使用 EdgeNGramFilterFactory 和 NGramFilterFactory 的情况. 我正在使用 NGramFilterFactory 执行“包含"样式搜索,最小字符数为 2.我还想搜索第一个字母,例如带有前端 EdgeNGramFilterFactory 的“startswith". 我不想将 NGramFilterFactory 降低到最少 1 个字
..
我是 Neo4j 和 Solr/Lucene 的新手.我读过我们可以在 Neo4j 中使用 lucene 查询,这是如何工作的?Neo4j中使用lucene查询有什么用? 我还需要一个建议.我需要编写一个应用程序来搜索和分析数据.这可能对我 Neo4j 或 Solr 有帮助吗? 解决方案 Neo4J 使用 lucene 作为其 遗留索引.目前,Neo4J 支持多种索引,比如在节点上创
..
有没有办法在 Lucene 中实现 JOINS? 解决方案 您可以手动进行通用连接 - 运行两次搜索,获取所有结果(而不是前 N 个),在您的连接键上对它们进行排序并与两个有序列表相交.但这会让你的堆变得非常困难(如果列表甚至适合它). 有可能的优化,但在非常特定的条件下. IE.- 你做一个自加入,并且只使用(随机访问)Filters 进行过滤,没有Queries.然后,您可以手
..
..
我正在构建一个 Lucene 索引并添加文档. 我有一个多值字段,在本例中我将使用类别. 一个项目可以有很多类别,例如,牛仔裤可以属于服装、裤子、男装、女装等. 将字段添加到文档时,逗号会有所不同吗?Lucene 会直接忽略它们吗?如果我将逗号更改为空格会有所不同吗?这会自动使该字段成为多值吗? String categoriesForItem = getCategories(
..
当我通过 获取我的 ElasticSearch 服务器设置时 curl -XGET localhost:9200/_cluster/settings 我看到了持久性和暂时性设置. {“执着的": {“cluster.routing.allocation.cluster_concurrent_rebalance":“0","threadpool.index.size": "20","thre
..