lucene相关内容
我假设 Elasticsearch 中的每个分片都是一个索引.但我在某处读到每个段都是一个 Lucene 索引. 究竟什么是细分?它如何影响搜索性能?使用默认 Elasticsearch 设置,我每天的索引大小达到 450GB 左右(我每天创建一个新的). 当我执行 curl -XPOST "http://localhost:9200/logstash-2013.03.0$i_opti
..
我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他是指板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,以及它
..
正如我在标题中所说:我正在使用 Java,但是当我在 Eclipse 上运行代码时,出现以下错误.. 线程“main"中的异常 java.lang.NoClassDefFoundError: org/apache/lucene/analysis/util/ResourceLoader在 Indexer.getIndexWriter(Indexer.java:38)在 Indexer.rebu
..
我已经使用这些命令安装了 ZendSearch 和 composer: $ cd/var/www/CommunicationApp/vendor/$ git clone https://github.com/zendframework/ZendSearch.gitZendSearch$ cd ZendSearch/$ curl -s https://getcomposer.org/install
..
我刚刚从 http://www.eu.apache.org/dist/lucene/solr/5.3.1/solr-5.3.1.tgz 然后我用 tar zxvf solr-5.3.1.tgz 解压到/bin/目录,用 cd/solr-5.3.1/bin 启动二进制文件 ./solr start 根据教程和自述文件,第一次试运行不需要更多. 最多等待 30 秒才能看到 Solr 在
..
我的目标是利用 Lucene 的许多标记器和过滤器来转换输入文本,但不创建任何索引. 例如,给定这个(人为的)输入字符串... " 某人的 - [texté] 在这里,foo ." ...还有像这样的 Lucene 分析器... Analyzer 分析器 = CustomAnalyzer.builder().withTokenizer("icu").addTokenFilter
..
我有五个复选框 搜索全部 模板 1 模板 2 模板 3 模板 4 如果用户选择 Search All,那么我们可以简单地传递索引名称并获取结果,如果用户选择模板特定复选框之一,我们同样可以通过传递模板名称来完成,但如果有的话两个模板特定的复选框(或者可能是三个)被选中,然后? 我们可以用管道分隔模板ID吗? 解决方案 您可能需要更改 Advanced Databa
..
这是我之前问题的延续 大量删除的文档计数是否会影响 ES 查询性能与我的 ES 索引中已删除的文档相关. 正如答案中所指出的,我使用 优化 APIES 1.X 版本,其中 强制合并 API 不可用,但在阅读了弹性创始人 Say Bannon 的优化 API github 链接(之前在 ES 网站上找不到它)后,看起来它做了同样的工作. 在运行优化 API 后,我收到了索引的成功消息,但
..
我有一个从索引中搜索的标准 Lucene 应用程序.我的索引包含很多法语术语,我想使用 ASCIIFoldingFilter. 我已经做了很多搜索,但我不知道如何使用它.构造函数接受一个 TokenStream 对象,当您向它发送一个字段时,我是否调用分析器上检索 TokenStream 的方法?那我该怎么办?有人可以指出一个使用 TokenFilter 的例子吗?谢谢. 解决方案
..
如果我有一个字段 x,它可以包含一个值 y 或 z 等,有没有一种方法可以查询,以便我可以只返回已被索引的值? 示例x 可用的可设置值 = test1, test2, test3, test4 第 1 项:字段 x = test1 第 2 项:字段 x = test2 第 3 项:字段 x = test4 第 4 项:字段 x = test1 执行所需的查询将返
..
在索引时,我以这种方式提升某些文档: if (myCondition){document.SetBoost(1.2f);} 但在搜索时,具有完全相同质量但一些通过和一些失败的 myCondition 文档最终都具有相同的分数. 这里是搜索代码: BooleanQuery booleanQuery = new BooleanQuery();booleanQuery.Add(new Ter
..
我知道 Lucene 索引不能共享: Sitecore 在 Lucene 的文件系统中保留一份本地副本每个实例,不支持共享索引实例. 是否可以在 CM 和 CD 之间 xcopy Lucene 索引? 是否有其他方法或建议可以在 30 多个内容交付服务器中维护索引? 更新:我完全意识到 CD 必须启动自己的索引更新.对于超过 30 台 CD 服务器,我认为可能会有一段时间并
..
如何格式化 Solr 构面查询以包含两个页面查看范围? 以下将仅返回 200 TO 250 范围,而 500 至 550 范围内不返回任何内容. 浏览量:[200 TO 250] OR [500 TO 550] 我很想获得与页面浏览量在 200 到 250 之间以及在 500 到 550 之间的人匹配的记录数. 解决方案 原来我每次都需要
..
我想弄清楚有效载荷评分在 lucene 中的工作原理.由于我不明白 PayloadFunction 适合哪里,我想我并不真正了解它是如何工作的.尝试用谷歌搜索它,但除了建议通过源代码之外找不到太多.好吧,如果有人可以在这里解释它会很好,否则它是源代码:) 解决方案 一共有三个部分.首先,您应该在分析期间生成有效载荷.这可以使用 PayloadAttribute 来完成.您只需在分析期间将此
..
如何在 Lucene 3.6.2 中使用 Porter Stemmber 类?这是我所拥有的: import org.apache.lucene.analysis.PorterStemmer;...PorterStemmer 词干 = 新 PorterStemmer();term = stemmer.stem(term); 有人告诉我:PorterStemmer 在 org.apache.lu
..
我也想知道如何在索引时添加元数据,以便我可以提升一些参数 解决方案 Lucene 索引文本而不是文件 - 您需要一些其他过程来从文件中提取文本并在其上运行 Lucene.
..
我想构建自己的分析器,同时使用过滤器/标记器. 我的意思是,相同的字段是 Keyword(整个流作为单个标记)和小写 如果 KeywordAnalyzer仅使用,字段的值不区分大小写.如果我使用 LowerCaseTokenizer 或LowerCaseFilter 我要结合它们与其他执行相同操作的分析器 KeywordAnalyzer(不使用字母、空格、删除停用词等分隔) 问题
..
我在理解 ElasticSearch 中的正则表达式机制时遇到了麻烦.我有代表财产单位的文件: {“单元" :{“每日可用性":“UIAOUUUUUUUIAAAAAAAAAAAAAAAAAOUUUUIAAAAOUUUIAOUUUUUUUUUUUUUUUUUUUUUUUUUUIAAAAAAAAAAAAAAAAAAAAAAOUUUUUUUUUUIAAAAAOUUUUUUUUUUUUUIAAAAOUU
..
我想知道如何使用 Range-Query 在 Hibernate Search 中按日期搜索,或者是否有任何过滤器我必须实现.以下是我在记录实体中的字段 /*** 分析开始的时间.*/@Temporal(TemporalType.TIMESTAMP)@Field(index = Index.UN_TOKENIZED)@DateBridge(分辨率 = 分辨率.MILLISECOND)私人日期开始
..
我需要遍历 Lucene 索引中的所有文档,并获取每个术语在每个文档中出现的位置.据我能够从 Lucene javadoc 中了解到,这样做的方法是执行以下操作: IndexReader ir = gainIndexReader();术语 tv = ir.getTermVector( doc, field );条款枚举条款 = tv.iterator();PostingsEnum p = nul
..