其他数据库

使用lucene进行多语言搜索

我正在进行多语言搜索。我将使用lucene作为工具。 我已经翻译了内容,每个文档都会有3或4种语言。 对于索引和搜索,可能有4种策略:对于每个文档/内容: 每种语言都在不同的索引/目录中编入索引。 每种语言都在不同的文档中编入索引,但在同一索引中编制索引。不同的字段,但在同一个文档中。 所有语言都在文档的同一字段中编入索引 但是我还没有测试每种方法,有谁能够告诉我哪一种 ..
发布时间:2018-04-16 16:23:21 其他数据库

太阳黑子/ Solr全文搜索 - 如何索引Rails关联

有可能通过与太阳黑子的关联进行索引吗?例如,如果客户has_many联系人,我希望在我的Customer模型上有一个“可搜索”块,将联系人#名字和联系人姓氏列编入索引以用于搜索对客户。 acts_as_solr有一个:include选项。我只是简单地将相关的列名组合到客户的文本字段中,如下所示,但这看起来不太灵活。 searchable do text:organization_ ..
发布时间:2018-04-16 16:23:16 其他数据库

在solr中搜索特殊字符

我在solr中搜索特殊字符时遇到问题。 我的文档有一个字段“标题”,有时它可以像“泰坦尼克号 - 1999”(它具有字符“ - ”)。 当我尝试在solr中搜索“ - ”时,我收到400错误。我试图逃避角色,所以我尝试了“ - ”和“\-”之类的东西。在这种情况下,solr不会响应我的错误,但它会返回0个结果。 如何在solr管理员中搜索特殊字符(例如“ - “或”'“ 问候 ..

如何在PostgreSQL上实现中文全文搜索?

以前曾询问过这个问题: 但中文没有答案尽我所能看到。我查看了OpenOffice wiki,并没有中文字典。 编辑:由于我们已经成功使用PG的英文文档的内部FTS引擎,我们不想移动到外部索引引擎。基本上,我要找的是中文FTS配置,包括简体中文(普通话)的解析器和词典。 我知道这是一个古老的问题,但有一个中文Postgres扩展: https://github.com/amutu/zhp ..
发布时间:2018-04-16 16:23:04 其他数据库

如何实际搜索Visual Studio中的所有文件

我正在使用Visual Studio Express 2013 for Web。说例如我在类Utils中有一个名为FooBar()的静态公共方法。我们还要说,我在很多.aspx文件中使用这种方法。比方说,我将FooBar()的方法签名更改为FooBar(字符串),随后我想查找Utils.FooBar的所有实例,以便我可以更新它们。 现在假设我进入Solution Explorer搜索框,选择 ..

在单核或多核上存储多组文档

我从同一个中间件运行多个内容/设计单独的网站,我想使用Solr作为搜索引擎。这些网站的域名不同,但内部结构不同(意思是说,实际的数据库和数据结构在网站之间是相同的)。现在的问题是 - 存储更好吗?该站点数据在单个Solr索引中,然后通过“site”字段分隔,或者在每个站点的单个JVM中使用单独的Solr内核? 最佳性能(没有跨站点查询)?什么会提供最好的召回和精确度(我担心由于IDF因素导致 ..
发布时间:2018-04-16 16:22:50 其他数据库

Postgres全文搜索:如何搜索多个字段中的多个单词?

我第一次使用Postgresql,并试图在我的网站中创建一个搜索引擎。我有这张表: CREATE TABLE shop( id序列主键, 名称TEXT NOT NULL , description TEXT, address TEXT NOT NULL, city TEXT NOT NULL ); 然后我为表的每个字段创建一个索引(这是正确的方式吗?或者,也许我 ..
发布时间:2018-04-16 16:22:48 其他数据库

TDictionary保存到文件

我有很多文件(大约16万个),我需要了解关于文件中各个单词的位置的信息(全文)。所以我使用这样的词典: $ pre $ t $ t $ t $ t $ t $ t 现在我知道WORD1在FILE1,FILE3和FILE100中,并且在每个文件,等 我可以填充它,我可以使用它 - 它非常快。但我不知道如何有效地存储字典文件。 编辑:有效 - 我的意思 ..
发布时间:2018-04-16 16:22:45 其他数据库

太阳黑子和思维狮身人面像之间的性能差异

我读过一篇文章,比较太阳黑子的表现和思考 sphinx( http://www.vijedi.net/2010/ruby-full-text-search-performance-thinking-sphinx-vs-sunspot-solr/ )。根据文章中的太阳黑子在思考狮身人面像后拖了很多时间,因为 使用xml与java层交互。这是所提到的结果 there 运行思考Sphinx ..

为什么地理搜索/基于位置的搜索返回零结果?

我尝试使用应用引擎的搜索API来搜索位置: https://developers.google.com/appengine/docs/python/search/overview#Performing_Location-Based_Searches 问题是无论我做什么,我都会得到零结果。我将搜索lat / lng设置为文档的GeoPoint属性上的确切点,它仍然返回零。 我知道常规搜 ..

Solr:索引短语短于查询时的短语搜索

如果索引字段是查询短语的一部分,是否可以找到文档? 它很容易找到“快速棕色狐狸跳跃搜索“棕色狐狸”或“懒狗”时,搜索“懒惰的狗”。但是,如果我需要做到这一点,反之亦然? 以下是我的情况:我在“ brown fox ”文档中有一个简短字段。或“懒狗”“,我希望通过搜索”快速棕色狐狸“或“。 注意:它应该是一个词组匹配,因此在查询中使所有可选项无效。像“ brown dog ”这样的 ..
发布时间:2018-04-16 16:22:33 其他数据库

SQLite3多个FTS表搜索

我在sqlite数据库中有三个虚拟表格 - 两个有一个内容列,另一个有两列 - 标题和内容。说一张表是针对一些文章的内容和标题,另外两张是针对评论和他们的笔记。有一种方法可以在一个查询中对其进行搜索吗?我需要合并所有结果并按照相关性对它们进行排序,首先是文章及其标题,然后是评论和备注。我做了一些解决方法。我在表格中填入搜索结果以显示每一次新的搜索,但我认为这不是一个好主意: DROP TA ..
发布时间:2018-04-16 16:22:22 其他数据库

从tsvector列中检索最常见的关键字

我正在考虑将tsvector列添加到现有的表中,该列将保存同一表中多个列的可能搜索项(例如,tsvector列将等于 to_tsvector(header ||“|| ||”))。 body ||''|| footer))。在我决定这样做之前,我的一个要求是我能够在表中的所有记录中找到最流行的关键字。 是否有类似于tsquery那会发现我所有记录中最流行的关键字? 大多数情况下, ts_st ..
发布时间:2018-04-16 16:22:15 其他数据库

我可以使用哪些Solr标记器和过滤器进行强大的一般站点搜索?

我想通过搜索 ibm 来确保搜索 I.B.M。。我还想确保通过搜索 dismember 可以找到 Dismemberment Plan 。 使用Solr,我可以在分析和查询时使用哪些标记器和过滤器来允许这两种结果? 解决方案 对于IBM => ibm ,您需要一个solr。 WordDelimiterFilterFactory ,它可以去掉特殊字符并链接单词和数字。 ca ..
发布时间:2018-04-16 16:22:13 其他数据库

Django文本搜索与部分句子匹配

我正在建立一个网站,我想在这个网站上实现一些对象的标题和描述的文本搜索。由于我的对象数量很少(约500个文件),所以我不考虑Haystack等。 我只需要2个特征: 能够在描述的优先顺序上标注匹配(带有某种权重)。 允许部分匹配句子。例如,如果我搜索'冰淇淋',也可以得到'冰'和'奶油'的结果。 我有看着 django-watson 和 django-full-text-sea ..
发布时间:2018-04-16 16:22:10 其他数据库

搜索多个字符串

我知道在文件(kmp)中查找一个字符串的有效方法,或者是一个文件中的各种字符串(trie)。 但是,多年来,我一直在想如果有一种方法(有时候认为它是不可能的)搜索多个文件以获取多个字符串 假设我有一百万个文件,并且我想回答查询,如“查找具有字符串”香蕉“,”摩托艇“和”白狐“的文件”。什么是一个有效的算法?有一个吗? 当然,可以在线性时间内搜索要搜索的文件的大小。但是对于大量的大 ..

设置pg_trgm的默认限制

这似乎是一个非常基本的问题,但是如何更改pg_trgm扩展的默认限制?目前是0.3。我已经完成: select set_limit(0.5) select show_limit()=> 0.5 关闭连接,重新连接: select show_limit()=> 0.3 感谢您的帮助。 解决方案 这可能不是解决方案,而是对潜在解决方案的贡 ..
发布时间:2018-04-16 16:21:29 其他数据库

使用Solr编制索引PDF

我对Solr的主要经验是对CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我我需要做什么来索引pdf。 我已经看到了这个: http://wiki.apache.org/solr/ExtractingRequestHandler 但它对我来说毫无意义。我需要安装Tika吗? 我输了 - 请帮助 解决方案 其中最难的部分是从PDF中获取元数据,使用像 Apertur ..
发布时间:2018-04-16 16:21:08 其他数据库