分布式计算/Hadoop

如果筛选器在筛选查询内部或外部,是否重要?

虽然这两者给了我相同的结果,但内部或外部的过滤器有什么区别?在表现或幕后行为方面有差异吗? “查询”:{ “过滤“{ ”query“:{”match“:{”email“:”business opportunity“}}, ”filter“:{”term“:{”folder“:”inbox“} } } 查询“:{ ”filtered“:{ ”query“:{”match“: ..
发布时间:2017-08-06 22:48:43 分布式计算/Hadoop

在弹性搜索中默认禁用字段分析

是否可以选择性地为类型启用弹性搜索字段的索引? 通过特定索引的映射设置,可以设置属性 {“index”:“ not_analyzed“} 对于特定字段。由于我的文档有太多的字段,并且将来可能会改变结构,所以我需要一个映射,默认情况下不对字段进行分析,除非另有规定。 可能? 解决方案 是 - 看看动态模板 请尝试以下操作: PUT / my_index ..
发布时间:2017-08-06 22:48:14 分布式计算/Hadoop

ElasticSearch - 每个节点的最小碎片数

如果有人可以为每个ES节点提供最佳数量的碎片,以获得最佳性能,或者提供任何推荐的方式来获得碎片的数量,给定核心数量和记忆足迹印刷。 > 解决方案 在分片之前有三种条件你想要考虑。 情况1) 您希望使用具有故障转移和高可用性的弹性搜索。然后你去分片。 在这种情况下,您需要根据要在生产中使用的节点数[ES实例]选择数量的分片。 3个生产节点。那么您需要为每个索引选择1个主分片和2 ..
发布时间:2017-08-06 22:48:00 分布式计算/Hadoop

Elasticsearch:查找子串匹配

我想执行精确的字匹配和部分字/子串匹配。例如,如果我搜索“男士剃须刀”,那么我应该可以在结果中找到“男士剃须刀”。但是,如果我搜索“en的剃须刀”,那么我也应该能够在结果中找到“男士剃须刀”。 我使用以下设置和映射: 索引设置 PUT / my_index { “设置”:{ “number_of_shards”:1, “分析”:{ “filter”:{ “autocomple ..

弹性搜索:删除文档后如何释放商店大小

在我的弹性搜索服务器上: 总文件数:300万,总大小:3.6G 然后,我删除了大约2.8百万个文档: 总共文档:约0.13万,总大小: 3.6G 我已经删除了文件,应该如何释放文件的大小? 解决方案 删除文件只会将其标记为已删除,因此不会被搜索。要回收磁盘空间,您必须优化索引: curl -XPOST'http:// localhost:9200 / _optimize ..
发布时间:2017-08-06 22:46:48 分布式计算/Hadoop

弹性搜索bool查询组合必须与OR

我正在尝试将基于solr的应用程序迁移到弹性搜索。 我有这个lucene查询 (( name:(+ foo + bar) OR info:(+ foo + bar) ))AND状态:(1) AND(has_image:(0)OR has_image:(1)^ 100) 据我所知这是MUST子句与布尔OR的组合OR: “获取包含所有文档(名称中的foo AN ..
发布时间:2017-08-06 22:46:34 分布式计算/Hadoop

尝试更新设置时出错

我尝试通过bash脚本执行此命令,但是我收到以下错误: #!/ bin / bash curl -XPOST'localhost:9200 / my_index / _close' curl -XPUT'localhost:9200 / my_index / _settings'-d'{ “analysis” :{ “analyzer”:{ “ar_analyzer”:{ “t ..
发布时间:2017-08-06 22:46:13 分布式计算/Hadoop

弹性体分析仪

我很难理解带有轮胎宝石的弹性搜索分析仪的概念。我实际上是这些搜索概念的新手。有人可以帮助我一些参考文章或解释分析仪实际上是什么以及为什么使用它们? 我看到在弹性搜索中提到的不同分析器,如关键字,标准,简单,雪球。没有分析员的知识,我无法弄清楚我真正需要的东西。 解决方案 让我给你一个简短的答案。 分析器用于索引时间和搜索时间。 它用于创建一个术语索引。 要对一个短语进行 ..
发布时间:2017-08-06 22:46:00 分布式计算/Hadoop

ElasticSearch:设置“not_analyzed”的影响字段为“存储”:“是”?

假设我有一个字符串字段在映射中指定为 not_analyzed 。如果我然后添加“store”:“yes”到映射,ElasticSearch会重复存储吗?我对 not_analyzed 字段的理解是,它们不是通过分析器运行,而是按照进行索引,但客户端能够匹配它。所以,如果一个字段都是 not_analyzed 和 store:yes ,这可能会导致ElasticSearch保留两个字符串的副本 ..
发布时间:2017-08-06 22:45:17 分布式计算/Hadoop

在OSX小牛上安装弹性搜索

我正在尝试在OSX小牛上安装Elasticsearch 1.1.0,但是当我尝试开始时,我收到以下错误: 产品:> ./elasticsearch 线程“main”中的异常java.lang.NoClassDefFoundError:无法在org.elasticsearch.bootstrap.Bootstrap.buildErrorMessage(Bootstrap.java:252)$ ..
发布时间:2017-08-06 22:45:04 分布式计算/Hadoop

弹性赛vs卡桑德拉vs卡桑德拉弹力赛

我正在学习NoSQL,并根据我的客户要求查看不同的选项。在提出这个问题之前,我已经经历了各种各样的资源(在NoSQL中有一点知识的人) 我需要以更快的速度存储数据并读取数据。 完全故障安全,易于扩展。 能够搜索Google Analytics(分析)的数据。 我最后找到了一个简短的列表: Cassandra和Elasticsearch 我所理解的是Cassandra是一个完美 ..
发布时间:2017-08-06 22:44:49 分布式计算/Hadoop

在弹性搜索中,如何搜索任意的子串?

在弹性搜索中,如何搜索任意的子串,也许包括空格? (搜索部分字词不够,我想搜索整个字段的任何子字符串。) 我想象它必须在一个关键字字段,而不是文本字段。 假设我在我的Elasticsearch索引中只有几千个文档,我尝试: “查询”:{ “通配符“:{”description“:”* plan *“} } 预期 - 我得到描述中的“计划”的每个项目,甚至像“替 ..
发布时间:2017-08-06 22:44:36 分布式计算/Hadoop

从事件逐个删除字段

所以我使用标准的ELK堆栈来分析Apache访问日志,这是非常有效的,但是我正在使用KV过滤器将URL参数作为字段进行分析,以便让我更好地查询。我的问题是,我正在分析的应用程序具有“缓存清除”动态生成的参数,这导致了成千上万的“字段”,每次出现一次。 ElasticSearch似乎有这样的严重问题,他们对我没有价值,所以我想删除它们。以下是模式的一个示例: GET / page?rand12 ..
发布时间:2017-08-06 22:43:56 分布式计算/Hadoop

如何匹配一个数组值通过它的键值在一个键值中弹性搜索数组?

我有一个数组键值对。是否可以确切匹配键匹配值&然后检查它的值的范围值? 示例:在下面的doc oracle_props 是一个名称,值对的数组。我需要检查它是否有“oracle_cursors”键,然后检查它是否小于1000。 GET / eg / message / _percolate { “doc”:{ “client”:{ “name”:“Athena” , “versi ..
发布时间:2017-08-06 22:43:42 分布式计算/Hadoop

弹性搜索:_score字段上的聚合?

我想使用统计信息或 extended_stats 在 _score 字段上的聚合,但找不到任何这样做的示例(即,您似乎只能使用具有实际文档字段的聚合) 可以在ElasticSearch查询响应中的每个匹配项的计算“元数据”字段上请求聚合(例如, _score , _type , _shard 等)? 我假设答案是“不”,因为像 _score 这样的字段没有编入索引... 解决方案 ..
发布时间:2017-08-06 22:43:29 分布式计算/Hadoop

计算事件之间的时间

我有一个消息流过几个系统,每个系统记录消息条目并退出时间戳和uuid messageId。我正在通过以下方式吸收所有日志: filebeat - > logstash - >弹性搜索 - > kibana 因此,我现在有这些事件: @timestamp messageId事件 2016年5月19日,02:55:29.003 00e02f2f-32d5-95 ..
发布时间:2017-08-06 22:42:50 分布式计算/Hadoop