carrot2相关内容

搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读有关该工具的信息时,您通常可以确定其他工具中的每一个都会被提及. 我不希望您向我解释每个工具 - 当然不会.如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了.到目前为止,我不确定以上哪一个适合,而且看 ..
发布时间:2022-01-15 12:46:55 其他开发

使用solr进行离线聚类?

我想在 solr 中聚集我的索引数据.每个 solr 文档都包含以下字段:id、title、url. 我已经阅读了 solr 7.7 文档,那里提到的聚类算法仅适用于每个查询的搜索结果.而我需要的是基于文档标题的完整索引聚类. 有人可以帮忙吗? 解决方案 据我所知,没有用于聚集整个 Solr 索引的开箱即用插件. 如果你有一些机器学习的背景,看看Apache Mahout ..
发布时间:2021-12-30 08:52:15 其他开发

搜索存储在 Hadoop 中的文档 - 使用哪种工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读某个工具时,您通常可以确定将提及其他每个工具. 我不希望您向我解释每个工具 - 当然不是.如果您能帮助我针对我的特定场景缩小此设置的范围,那就太好了.到目前为止,我不确定以上哪种方法适合,而且看起来(一如既往) ..
发布时间:2021-12-30 08:27:08 其他开发

Carrot2工作台无法处理大数据

我想使用胡萝卜2工作台对数据集进行聚类。我有一个包含 65536 文档的xml输入文件。我正在使用Lingo聚类算法。 但是,当我开始该过程时,工作台将在几秒钟内将所有文档归入“其他主题”集群,并返回结果。 我检查了具有较小数据集的聚类,并且得到了结果。 解决方案 Carrot2 Lingo算法是为小数据集(最多一千个文档)设计的。对于较大的数据集,您可能需要尝试STC,这样可 ..
发布时间:2020-10-03 02:22:22 其他开发

搜索存储在Hadoop中的文档 - 使用哪个工具?

我迷失在:Hadoop,Hbase,Lucene,Carrot2,Cloudera,Tika,ZooKeeper,Solr,Katta,Cascading,POI ... 当你阅读关于你可以经常确定其他工具将被提及的那个。 我不指望你向我解释每一个工具 - 当然不是。如果你能帮我缩小这个特定场景的话,那就太好了。到目前为止,我不确定上述哪一种方法是合适的,它看起来像(一如既往)那里有更 ..
发布时间:2018-05-31 18:43:35 分布式计算/Hadoop

Carrot2 + ElasticSearch基本信息流

我正在使用Carrot2和ElasticSearch。当我安装carrot2插件时,我有一个运行大量数据的弹性搜索服务器。 想要获得几个基本问​​题的答案: 聚簇仅适用于新建索引的文档,甚至是旧文档? 我指定要查看哪些字段进行聚类? curl命令正在工作并给出一些结果。如何获取curl命令,它将JSON作为输入到localhost的REST API URL:9200 / a ..
发布时间:2017-08-07 04:29:49 分布式计算/Hadoop