full-text-search相关内容

自 2008 R2 版本以来,是否有任何 Sql Server 全文搜索 (FTS) 性能改进?

我们正在对包含 260 万条记录的表使用 SQL Server 2008 R2 全文搜索.搜索性能通常很差,它遵循普遍报告的模式:冷系统/首次运行 ~10+ 秒,后续运行 ~1-2 秒.这与 2013 年 2 月的以下文章中报告的结果一致: 所以你认为你可以搜索——比较 Microsoft SQL Server FTS和 Apache Lucene 文章展示了以下使用维基百科转储数据的 ..
发布时间:2021-12-30 08:34:22 数据库

Solr:长度归一化/omitNorms=false 有什么好处?

我们正在使用 Solr 搜索各种长度的文章.我们索引描述性元数据(标题、作者、类别、关键字等)和全文.我们不会在索引时提升相关性 - 所有提升都在查询时完成(我们使用 dismax,结合各种 qf、pf 和 bf 提升). 目前我们的全文字段使用标准 omitNorms=false;因此,在所有其他条件相同的情况下,较短的文章(2-3 列英寸文章)通常比较长的专题文章(多页)文章具有更高的相 ..
发布时间:2021-12-30 08:26:02 其他开发

Solr 错误的拼写检查建议

使用 Solr 4.1 处理拼写建议. 我们正确配置了它,Solr 提供术语和整理建议.但是,我们注意到,如果我们再次搜索,建议的单词/collat​​e 很多时候都没有任何结果. 例如,我们搜索词“confort"但没有结果,有两个建议“comfort"和“convert".第一个术语包含结果.. 但是第二个术语没有带来任何结果,而是建议了另外两个术语,因此术语“转换"没有提供以下建 ..
发布时间:2021-12-30 08:22:35 其他开发

在 Solr 中使用函数查询来提高分数

我正在研究 Solr 4,以根据索引中存储的流行度排名优化我的 solr 结果排名. 现在当有人搜索时,除了相关度排名,我想使用流行度排名来影响相关度排名.最简单的公式可能是: 新的相关度排名 = 分数 * 人气排名 我一直在 http://wiki.apache.org/查看 Solr 函数查询solr/FunctionQuery#product 来实现相同的但是,我不知道如何 ..
发布时间:2021-12-30 08:18:35 其他开发

了解 Lucene 领先的通配符性能

Lucene 默认不允许在搜索词中使用前导通配符,但这可以启用: QueryParser#setAllowLeadingWildcard(true) 我知道使用前导通配符会阻止 Lucene 使用索引.带有前导通配符的搜索必须扫描整个索引. 如何展示前导通配符查询的性能?什么时候可以使用 setAllowLeadingWildcard(true)? 我已经建立了一个包含 1000 ..
发布时间:2021-12-30 08:17:58 其他开发

solr sunspot - 搜索belongs_to 关联

我有一个属于多个其他表的面料模型. class Fabric 5文字:说明文字:组合做组合名称结尾文字:收集做集合名称结尾文字:风格做样式名称结尾文字:起源做原产地名称结尾文本:纹理做纹理名称结尾文字:供应商做供应商名称结尾结尾结尾 我已经设置了所有反向关联(Has_many)等.但是,我似乎无法通过全文搜索来查询所有这些关联表的名称字段. 任何帮助将不胜感激. @search = ..

Solr 可以提高社交“喜欢"数量的结果吗?

我正在尝试根据“喜欢"的数量对结果进行排序. 最明显的解决方案是为每一行设置一个“喜欢"字段,并为每个点击“喜欢"的用户重新索引文档.但在这种情况下,重新索引大型文档并不实用. (以下为举例:不涉及大文件) 理想情况下,我希望将 Solr 中的数据和用户操作作为单独的行进行索引. 数据行(如下所示)随着时间的推移相对稳定. id:place_1名称:ela餐厅元:海鲜,中 ..
发布时间:2021-12-30 08:06:46 其他开发

如何评估托管全文搜索解决方案?

SaaS/托管全文搜索有哪些选择?我应该如何评估可用的不同选项? 我正在寻找在后端使用 Lucene、solr 或 sphinx 并提供 REST API 以将文档提交到索引和运行搜索的东西. 我可以构建自己的 EC2 AMI,但我必须配置 EBS 和其他东西,对其进行监控等. 解决方案 Websolr 提供了一个基于云的 Solr带有控制面板.在撰写本文时,它处于内部测试阶段 ..
发布时间:2021-12-30 08:04:40 其他开发

Neo4j 自动索引、遗留索引和标签模式:相对于节点全文搜索的差异

这个问题部分回答在neo4j-legacy-indexes-and-auto-index-vs-new-label-bases-schema-indexes和the-difference-between-legacy-索引自动索引和新索引方法 我还不能对它们发表评论,也不能在这里写一个新线程.在我的数据库中,我有一个旧索引“主题"和标签“主题". 我知道: a.pattern M ..
发布时间:2021-12-28 17:21:28 其他开发

Neo4j 中的搜索查询:如何使用内部 TFIDF/levenshtein 或其他算法在 START 查询中对 Neo4j 中的结果进行排序?

我正在研究一个使用维基百科主题名称的模型,用于我在全文索引中的实验. 我在“主题"(旧版)上设置和索引,并进行全文搜索:'united states': start n=node:topic('name:(united states)') return n 第一个结果根本不相关: '美国联邦和领土、关联州和外国的美国国家历史地标列表' [...] 而真正的“美国"被埋在名单的深 ..
发布时间:2021-12-28 17:20:01 其他开发

PDO 和 MySQL 全文搜索

我正在将我所有的站点代码从使用 mysql_* 函数转换为 PDO.PDO 上的 PHP 文档不符合我的需要.提供了使用的功能,但在不同场景下不详细说明. 基本上,我有一个mysql全文搜索: $sql = "SELECT ... FROM search_table WHERE MATCH(some_field) AGAINST ('{$searchFor}*' IN BOOLEAN MO ..
发布时间:2021-12-26 20:11:40 PHP

在 Delphi 中使用嵌入式数据库进行全文搜索

我们正在创建一个开源Twitter 客户端 并且正在寻找一个占用空间最小的嵌入式数据库,它可以与 Delphi 配合使用,并且非常适合全文搜索(我知道这不会)t 非常适合小足迹).理想情况下,它也应该是免费的或开源的(要求我知道). 我倾向于 SQLite,但我之前没有使用过,不知道是否支持全文搜索,或者它与 Delphi 的配合情况.我之前使用过 DBISAM 并且它是嵌入的有全文搜索,但 ..
发布时间:2021-12-25 20:33:17 其他开发

Vim 清除上次搜索突出显示

在 Vim 中进行搜索后,我将所有出现的事件都突出显示.我怎样才能禁用它?我现在再次搜索一些找不到的乱码. 有没有办法暂时禁用突出显示,然后在需要时再次启用它? 解决方案 关闭高亮直到下一次搜索: :noh 或者完全关闭突出显示: set nohlsearch 或者,切换它: 设置hlsearch!nnoremap :set hlsearch! ..
发布时间:2021-12-24 08:13:01 其他开发

PostgreSQL 重音 + 不区分大小写的搜索

我正在寻找一种方法来支持具有良好性能的不区分大小写 + 不区分重音的搜索.到目前为止,我们使用 MSSql 服务器对此没有任何问题,在 Oracle 上我们不得不使用 OracleText,现在我们在 PostgreSQL 上需要它. 我发现这篇关于重音不敏感的帖子: PostgreSQL 是否支持“accent insensitive"?排序规则? 但我们需要将它与不区分大小写的情 ..

从 Lucene 索引中获取最高频率项

我需要从几个lucene索引中提取出现频率最高的词,用于语义分析. 因此,我想获得可能出现次数最多的前 30 个术语(仍未决定阈值,我将分析结果)及其每个索引的计数.我知道我可能会因为潜在地删除重复而失去一些精度,但是现在,可以说我对此没有意见. 所以对于提议的解决方案,(不用说也许)速度并不重要,因为我会做静态分析,我会强调实现的简单性,因为我对 Lucene 和我无法理解它的一些概 ..
发布时间:2021-12-21 23:26:13 Java开发

GiST和GIN索引的区别

我正在实现一个表,其中有一列的数据类型为 tsvector,我想了解使用哪种索引会更好? GIN 还是 GiST? 在查看 这里的 postgres 文档时,我似乎明白了: GiST 更新和构建索引的速度更快,但准确性不如 gin. GIN 更新和构建索引的速度较慢,但​​更准确. 好的,那么为什么有人想要一个 gist 索引字段而不是 gin 呢?如果要点可以给你错 ..
发布时间:2021-12-21 23:24:50 其他开发

“multiValued"有什么用?Solr中的字段类型?

我是 Apache Solr 的新手.即使在阅读了 documentation 部分之后,我还是发现很难清楚地理解 multiValued 的功能和使用 字段类型属性. Solr 在内部做什么/处理/处理标记为 multiValued 的字段? 在 Solr 中,multiValued 的字段与非多值字段的索引有何不同? 有人可以用一些很好的例子来解释吗? 医生说: ..
发布时间:2021-12-21 23:20:48 其他开发

带有存储过程的代码优先实体框架从复杂的全文搜索返回结果

我正在为以下场景寻找设计建议: 我有一个代码优先的 EF5 MVC 应用程序.我正在构建一个全文搜索功能,它将合并来自许多表的多个加权列.由于我无法使用这些表的索引创建视图(其中一些包含文本/二进制列),我创建了一个存储过程,它将输出我的对象的 ID(例如.PersonID)和根据搜索词与该对象关联的排名. 我目前的方法是创建一个帮助类来执行全文搜索,它调用存储过程并根据返回的 ID ..
发布时间:2021-12-20 17:18:12 C#/.NET