分布式计算/Hadoop

ElasticSearch - 高索引吞吐量

我目前的目标是在几小时内能够索引3亿(3,000,000,000)份文件。 。 为此,我目前拥有3台Windows服务器机器,每台16GB RAM和8个处理器。 正在插入的文档有一个非常简单的映射,只包含一些数字非分析字段( _all 被禁用)。 我可以使用这种相对温和的钻机每秒达到约12万个索引请求(使用大桌面进行监控),我相信可以增加吞吐量进一步。我正在使用一些.net NEST客户 ..
发布时间:2017-08-06 23:08:56 分布式计算/Hadoop

弹性搜索认证

如何在Elasticsearch中定义安全访问?我有弹性搜索头插件,但是您的访问不需要任何安全性。 解决方案 此答案中提到的插件是更长的积极支持。 弹性搜索中没有内置的访问控制。因此,您需要设置一个反向代理(这里是博客文章如何设置nginx),使用第三方弹性搜索插件之一,例如 https:// github。 com / Asquera / elasticsearch-http-ba ..
发布时间:2017-08-06 23:08:24 分布式计算/Hadoop

从ElasticSearch中删除数据

我刚刚 ElasticSearch 。我试图找出如何从ElasticSearch中删除数据。我已经删除了我的索引。但是,似乎实际上并没有删除数据本身。我看到的其他内容指向了按查询删除功能。但是,我甚至不确定要查询什么。我知道我的索引。基本上,我想知道如何做一个 DELETE FROM [Index] 从Chrome中的PostMan。但是,我没有任何运气。看来,无论我做什 ..
发布时间:2017-08-06 23:07:54 分布式计算/Hadoop

弹性绳索MongoDB用于过滤应用程序

这个问题是在深入了解实验和实施细节之前先做一个架构选择。这是关于弹性搜索的可扩展性和性能方面的适用性。 MongoDB有一个特定的目的。 假设两者都存储具有字段和值的数据对象,并允许查询对象的主体。所以大概根据所选择的ad-hoc字段过滤掉对象的子集,是适合这两者的。 我的应用程序将围绕根据条件选择对象。 它将通过多个单个字段同时筛选对象,换句话说,其查询过滤条件通常包含1到5个字段 ..
发布时间:2017-08-06 23:07:39 分布式计算/Hadoop

重命名和删除弹性搜索索引

我正在使用C#.NET应用程序与NEST创建一个索引。 我创建了一个弹性搜索索引,客户可以查询所谓的index_1。然后我使用不同的应用程序实例创建索引的另一个版本,并将其称为index_1_temp。 我将index_1_temp重命名为index_1,最安全的方法是什么,然后删除原始index_1? 我知道ES有别名,但我不知道如何使用它们进行此任务 编辑:原始索引没有 ..
发布时间:2017-08-06 23:05:40 分布式计算/Hadoop

需要解释弹性搜索过滤器聚合

我正在尝试了解ElasticSearch中的“过滤器聚合”的语法,而且我被困扰。文档中给出的示例是: {”aggs“:{”messages“:{”filters“:{”filters“ {“errors”:{“term”:{“body”:“error”}},“warnings”:{“term”:{“body”:“warning”}}}},“aggs” “:{”histogram“:{”fi ..
发布时间:2017-08-06 23:05:27 分布式计算/Hadoop

弹性搜索数据增加每次重新启动时重复

我正在windows7上使用angularjs和oracle弹性搜索。 它的工作更多&更精细(谢谢stackoverflower帮助)。我有一个弹性搜索的问题:我的文档中的元素数量在增加,我不知道为什么/如何。 由弹性搜索索引的我的oracle表包含12010个元素,现在我在弹性文档中有84070个元素(经常由curl _count检查):所以它现在复制了7次数据。我几天前重新编入了表格,但我 ..
发布时间:2017-08-06 23:04:47 分布式计算/Hadoop

弹性搜索 - 单个字段的返回项频率

我正在尝试使用facet获得字段的术语频率。我的查询只返回一个命中,所以我想让方面返回特定字段中频率最高的术语。 我的映射: { “mappings”:{ “document”:{ “properties”:{ “标签”:{ “type”:“object”, “properties”:{ “title”:{ “fields”:{ “partial”:{ “search_analyz ..
发布时间:2017-08-06 23:04:34 分布式计算/Hadoop

为什么弹性材料中的文件是不可变的?

我正试图找到一个弹性搜索。正在阅读确定性指南。 他们提到更新API每次更新文档中的某些东西时,都会执行一个检索更改重新索引循环 。我完全可以这样做,因为他们说“文件是不可变的”(见此)。我在这里质疑的是为什么它首先是不可变的。不会有一个优势,允许只是一个特定字段的更新和索引没有这是约束? 解决方案 首先,告诉段落是不可变的,而不是告诉文件是不可变的。了解原因你需要了解lucene如 ..
发布时间:2017-08-06 23:03:57 分布式计算/Hadoop

如何为每个机器上有两个节点的集群设置两台机器

我有两台用于ES(2.2.0)的专用机器。这两台机器具有相同的规格。每个在Windows Server 2012 R2上运行,并具有128GB内存。关于ES,我计划在每个机器上有两个节点用于集群。 我正在查看elasticsearch.yml,了解如何配置每个节点以形成集群。 同一网络上具有以下服务器名称和IP地址的两台计算机: code> SRC01,172.21.0.21 ..
发布时间:2017-08-06 23:03:43 分布式计算/Hadoop

如何使用弹性搜索来获得JOIN功能,如同SQL?

我有一个SQL查询,可以通过3-4个表执行JOIN操作来获取数据。现在我们正在转向弹性材料以获得更好的性能。如何使用弹性搜索复制相同的JOIN查询?我已经阅读了关于父/子文档,但我的数据没有任何严格的父/子类数据。 解决方案 弹性搜索不支持JOIN,这是 NoSQL技术的全部目的。有一些方法可以使用父母/儿童关系(正如你所看到的),嵌套对象,并使用特殊的术语查找优化,但这是关于它。 ..
发布时间:2017-08-06 23:03:31 分布式计算/Hadoop

弹性搜索:可以处理聚合结果?

我使用SUM-Aggregation计算我的服务进程的持续时间。执行过程的每个步骤都将保存在Elasticsearch的呼叫ID中。 这是我监控的: ID#123(呼叫服务#1)的服务器响应持续时间 ** ID#123的完整持续时间** ID#124(呼叫服务#1)的请求处理持续时间 持续时间ID#124的服务器响应(呼叫服务#1) ** ID#124的完 ..
发布时间:2017-08-06 23:03:19 分布式计算/Hadoop

弹性搜索与neo4j整合的例子

我已经安装了Elasticsearch以及Neo4j。我想使用“Neo4j River Plugin for ElasticSearch”插件将Elasticsearch与Neo4j集成。有人可以告诉我如何整合这两个。 我还在寻找一些用例示例,我将清楚地了解noe4j如何与弹性搜索结合使用。 解决方案 我们应该有Elasticsearch& Neo4j必须安装。要与Neo4j River ..
发布时间:2017-08-06 23:03:05 分布式计算/Hadoop

更新弹性搜索中所有记录中的一个字段

我是ElasticSearch的新手,所以这可能是一件非常简单的事情,但是我并没有想出更好的方法来获取所有内容,用脚本进行处理,逐一更新寄存器。 我想做一些简单的SQL更新: 更新记录集SOMEFIELD = SOMEXPRESSION 我的目的是将实际的虚假数据替换成更有意义的一些数据(因此表达式基本上是 解决方案 有几个打开 问题可以更新文档通过查询。 ..
发布时间:2017-08-06 23:02:39 分布式计算/Hadoop