分布式计算/Hadoop
有没有办法创建索引并使用Java API指定自定义分析器?它支持在索引创建时添加映射,但是我无法找到一种方法来执行类似的操作,而不需要通过HTTP PUT发送JSON: curl -XPUT localhost:9200 / twitter?pretty = true -d'{ “analysis”:{ “analyzer”:{ “steak”:{ “type”:“custom”, “t
..
我正在尝试编写一个脚本,该脚本将向ElasticSearch发起新的用户记录,如果用户已经存在,则更新任何信息,如果更新对象中存在新的PaymentInfo对象,则将其添加到用户的Payments数组。这是到目前为止我正在使用的简化版本: curl -XPOST'http:// localhost:9200 / usrtest / usr / 1 / _update'-d' { “doc
..
如何在我的ElasticSearch中有多个节点?我在elasticsearch.yml中使用以下内容,但只有最后一个节点启动,浏览器会抱怨:文件中的页面:// localhost /说:undefined 。 p> node.name:“No Data” node.master:true node.data:false node.name:“Data One” node.
..
Elasticsearch有两个类似的功能来获取“相似”的文档: 有一个”更像这个API“。它给我类似于给定文件的文件。我不能在更复杂的表达式中使用它。 还有一个 ”more_like_this“查询用于Search API 我可以在bool或提升表达式,但我不能给它一个文档的id。我必须提供“like_text”参数。 我有标签和内容的文档。有些文件会有好的标签,有些文件不会有
..
我最近开始使用新的Amazon Elasticsearch Service,我似乎无法弄清楚我需要的访问策略,所以我只能访问我们的EC2实例中分配给它们的特定IAM角色的服务。 以下是我目前为ES域分配的访问策略示例: code> { “版本”:“2012-10-17”, “声明”:[ { “Sid”:“”, “效果”:“允许”, “Principal”:{ “AWS”:[ “arn
..
文件以各种格式存在,有些已过时: ( .doc , PageMaker ,硬拷贝(OCR), PDF 等)。资金可用于将文件迁移到“现代”格式,许多硬拷贝已经被OCR转换成PDF格式 - 我们最初认为PDF将是最终格式,但是我们可以接受建议(XML?) 。 一旦所有文档都采用通用格式,我们希望通过Web界面使其内容可用,并可通过搜索。我们希望灵活性只返回整个文档的搜索“hit”的部分(页面?
..
[环境] 我正在尝试按弹性搜索教程导入shakespeare.json。 弹性搜索2.1 Chrome浏览器的升级版 [背景] 当我粘贴 curl -XPUT localhost:9200 / _bulk --data-binary @ shakespeare.json 在感应选项卡上(扩展名打开一个带有2个窗口的新选项卡) 将其转换为 PUT / _bulk ,输出为
..
我有一些包含各种格式的URL的弹性搜索文本( http:// www ,www。)我想做的是搜索所有包含例如google.com的文本。 对于当前的搜索,我使用这样的查询: query = {“query”:{ “bool”:{ “must”:[{ “range”:{ “cdate”:{ “ “$ d ”lte“:dto} } }, {”query_string“:{ ”de
..
鉴于有一个标签集合的帖子的流行示例,我们假设我们希望每个标签不仅仅是一个字符串,而是一个字符串和一个double的元组,这意味着所有标签的强度。 p> 一个查询如何根据标签优势的总和发布和评分这些(假设我们正在标签名称中搜索确切的术语) 解决方案 可以通过将标签索引为嵌套文档,然后使用嵌套查询结合自定义分数查询。在下面的示例中,术语查询找到匹配的标签,自定义分数查询使用“标签”文档的
..
以下列聚合查询为例: { “query”:{ “match_all”:{} }, “aggs”:{ “groupBy”:{ “terms”:{ “field”:“CustomerName” }, “aggs”:{ “points_sum”:{ “stats”:{ “field”:“TransactionAmount” } } } } }, “size”:0 }
..
我读了关于Lucene deing的注释,限于2Gb文件。对于可以在Elasticsearch中编入索引的文档的大小,是否有任何其他限制? 解决方案 Lucene使用内部的字节缓冲区32位整数进行寻址。根据定义,这限制了文档的大小。所以2GB是理论上最大的。 在ElasticSearch中: ESGitHub代码中的 max http请求大小,它设置为 Integer.MAX_
..
我一直在尝试用弹性搜索过滤那些在其正文中包含一个空字符串的文档。到目前为止我没有运气。 在我继续之前,我应该提到我已经尝试了围绕Interwebz和StackOverflow传播的许多“解决方案”。 p> 所以,下面是我试图运行的查询,其次是其对应的: “查询”:{ “过滤”:{ “过滤器”:{ “bool”:{ “must_not” :[ { “missing”:{ “fie
..
说,而不是文档我有一个小树,我需要存储在Lucene索引。我该怎么做? 树中的一个例子节点: class Node { 字符串数据; 字符串类型; 列表儿童; } 在上述节点中,“data”成员变量是一个空格分隔的字符串字,所以需要全文搜索。 “type”成员变量只是一个单词。 搜索查询将是一个树本身,并且将搜索每个节点中的数据和类型以及
..
使用Nest构建我的Elasticsearch查询时,我希望能够看到发送到Elasticsearch的JSON版本。这可能吗? 这是我的后续问题的信息: { “_infer”:{ “defaultIndex”:“myindex” }, “确认”:false, “isValid”:false, “connectionStatus”:{ “success”:false, “request
..
从版本2.0开始Elasticsearch默认情况下绑定环回接口( _local _ )。 文档说有一种方法来切换到另一个网络,例如, _non_loopback _ 绑定到第一个非环回接口。工作正常 但是我不知道如何组合这些设置,以便Elasticsearch同时绑定环回和非环回接口? PS。我的原因是我在每个Elasticsearch实例上使用Logstash,通过local
..
当我尝试使用 curl http:// localhost:9200 连接到弹性搜索时,这是正常的。 但是当我运行 curl http:// IpAddress:9200 时,会发出错误,说连接拒绝端口9200 解决方案 默认情况下,它应绑定到所有本地地址。因此,假设您没有防火墙的网络层问题,我可以考虑检查的唯一ES设置是 network.bind_host ,并确保它未设置或设置
..
我的问题类似于此一个。 简单来说,有没有办法通过_geo_distance排序时返回地理距离? 更新: 要澄清,我想要结果以随机顺序包括距离。 解决方案 是的,可以通过使用脚本字段。 例如,假设您的文档具有名为位置的地理位置字段,则可以使用以下内容: / p> (注意 \\\' 只是一个转义的单引号,所以 \\\'location \\\' 真的是'locatio
..
相似的图像搜索问题 数百万张图片 pHash '并存储在Elasticsearch中。 格式为“11001101 ... 11”(长度为64),但可以更改(最好不要)。 给定主题图像的散列“100111..10”,我们要找到所有类似的图像散列在弹性搜索索引中,距离汉明距离8 当然,查询可以返回距离大于8的图像,弹性搜索或外部的脚本可以过滤结果集。但是总搜索时间必须在1秒左右。
..
在此问题中 是一个功能请求,可以选择种子进行排序为了娱乐随机顺序。 我需要能够分页随机排序的结果。 如何用Elasticsearch 0.19.1? 谢谢。 解决方案 您可以使用唯一字段的哈希函数(例如id)和随机盐进行排序。根据结果应该是多么真实随意,你可以做一些原始的例子: { “query” :{“query_string”:{“query”:“*:*”}
..
需要在ElasticSearch中找到一种方法,以提高基于字段特定值的文档的相关性。具体来说,在我的所有文档中都有一个特殊字段,其中字段值越高,包含该文档的文档的相关性就越高,无论搜索如何。 考虑以下文档结构: { “_all”:{“enabled”:“true”}, “properties”:{ “_id”:{“type”:“string”,“store”:“yes”,“index
..