mahout相关内容

Apache Mahout 的数据集

我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集.我只知道 GroupLens Research 组. 有人知道其他可用于推荐系统实施的数据集吗?我对基于项目的数据集特别感兴趣,但也欢迎其他数据集. 解决方案 这是 Mahout 的 Sebastian. 有一个来自捷克约会网站的数据集,您可能会感兴趣:http://www.occamslab.com/pe ..
发布时间:2022-01-21 13:19:39 其他开发

在提供 Lucene 索引时使用免费工具进行实体提取/识别

我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他是指板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,以及它 ..
发布时间:2022-01-15 12:40:55 其他开发

使用免费工具进行实体提取/识别,同时提供 Lucene 索引

我目前正在研究从文本(很多来自网络的文章)中提取人名、位置、技术词和类别的选项,然后这些文本将输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他指的是板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务 ..
发布时间:2022-01-02 17:39:03 其他开发

使用solr进行离线聚类?

我想在 solr 中聚集我的索引数据.每个 solr 文档都包含以下字段:id、title、url. 我已经阅读了 solr 7.7 文档,那里提到的聚类算法仅适用于每个查询的搜索结果.而我需要的是基于文档标题的完整索引聚类. 有人可以帮忙吗? 解决方案 据我所知,没有用于聚集整个 Solr 索引的开箱即用插件. 如果你有一些机器学习的背景,看看Apache Mahout ..
发布时间:2021-12-30 08:52:15 其他开发

Hadoop伪分布式模式下所有核心的充分利用

我在我的 4 核笔记本电脑上以伪分布式模式运行任务.如何确保所有内核都得到有效使用.目前,我的作业跟踪器显示一次只有一项作业正在执行.这是否意味着只使用了一个核心? 以下是我的配置文件. conf/core-site.xml: fs.default.namehdfs://localhost:9000 ..
发布时间:2021-12-15 19:18:47 Java开发

如何阅读Mahout集群输出

我已经对Mahout教程中的综合控制数据运行了k-Means聚类算法,并且想知道是否有人可以解释如何解释输出.我运行了clusterdump并收到了类似以下的输出(为了节省空间而将其截断): CL-592 {n = 57 c = 30.726,29.813 ...] r = [3.528,3.597 ...]}重量:[道具-可选]:点数:1.0:[距离= 27.453962995925863] ..
发布时间:2021-05-31 19:40:23 其他开发

数据挖掘是否支持英语以外的其他语言?

我是数据挖掘的新手. 我想进行一些数据挖掘,但是数据不是英语,而是日语或中文. 数据挖掘是否支持这些语言? 如果是,我们如何实现?任何工具和博客. 感谢您的帮助. 解决方案 答案与往常一样:是和否. 尽管实际上没有理论上的问题,但是亚洲语言还是有一些实际问题.典型的文本数据挖掘管道包括 充油(运行->运行) 删除停用词(a,the,...)和其他没有帮助的词 丰 ..
发布时间:2020-05-05 11:16:38 AI人工智能

不同的建议...使用Mahout

我编写了一个应用程序,以便当我给它提供推荐ID时,它会产生成功的推荐.但是,当我提出跟进请求时,也会给我同样的建议.我希望它能返回不同的建议. 谢谢 解决方案 如果结果列表足够大,则可以考虑改组列表并返回其子集. ..
发布时间:2020-05-05 11:16:31 其他开发

Apache Mahout +欧几里德距离:意外结果

鉴于以下用户偏好数据集,我正在使用Mahout的EuclideanDistanceSimilarity类对多个用户的相似性进行排名.首选项的范围目前是1到5之间的所有整数.但是,我可以控制秤,如果有帮助,可以更改. User Preferences: Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 1 ..
发布时间:2020-05-05 11:16:24 其他开发

为新数据集扩展Mahout

我想基于Mahout构建推荐模型.我的数据集格式除了用户ID,项目ID,评分和时间戳之外,还有其他列.因此,我认为我需要扩展 FileDataModel. 我以 JesterDataModel 为例.但是,我对逻辑流程有疑问.在其 buildModel()方法中,首先构造了一个空的映射“数据".然后将其扔到processFile中.我假设在此方法中修改了“数据",因为稍后将其用于构造Gene ..
发布时间:2020-05-05 11:16:20 其他开发

包括Mahout数学库的核心和amp;数学文件夹-Eclipse-Hadoop

我的问题与此类似:如何在不使用以下代码的情况下构建/运行这个简单的Mahout程序得到异常?,但是要复杂一些. 我正在编写hadoop代码,并想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类). 问题在于,前一个示例类位于Mahout的最新SNAPSHOT的math文件夹中,而后者位于核心文件夹下-两者共享与根文件夹之后的点相同的路径(org ..
发布时间:2020-05-05 11:16:17 Java开发

用于用户用户协同过滤的模型创建

我想进行某种用户-用户协作过滤,其中用户项矩阵中的用户是数据库中整个用户的选定部分.这些选定的用户会定期使用新选定的用户首选项进行刷新.新用户不应添加到矩阵中.对于新用户,根据他的喜好,我们需要从用户项目矩阵(仅选择一部分用户)中推荐项目.我不想将新的匿名用户添加到矩阵中. 在Mahout中探索,但在那里需要一些帮助. Mahout中的Recommender类具有Recommendation ..

Myrrix中的多个模型

我有这样的CSV文件: typeA,typeB typeA,typeC typeA,typeC typeA,typeB 这里,typeA,typeB和typeC是3种不同类型的实体.将类型B和C视为两种不同类型的项目,将类型A视为用户. 我可以通过将此CSV文件输入Myrrix来构建模型.该文件只有两种类型,即B(以前的CSV文件中的"B"项以用户身份出现在这里)和D.现在,假设我 ..

JobTracker用户界面未显示Hadoop作业的进度

我正在单节点集群下测试我的MR作业. 一旦我安装了mahout 9版本,Mapreduce作业就会停止在jobtracker中显示进度.(不知道安装mahout之后是否发生了这种情况) 每当我在hadoop集群中运行作业时,它都不会像以前那样在作业跟踪程序UI中显示状态,并且控制台中显示的执行日志也不同(类似于mahout日志) 为什么会这样? 谢谢. 解决方案 很可能您 ..
发布时间:2020-05-05 11:16:08 其他开发

为什么不仅使用Canopy集群而不是与KMeans Mahout结合使用

标题中的问题是-如果Canopy可用于聚类以及确定质心,为什么不将其用于聚类,而不是仅将其用于生成质心作为KMeans聚类的输入? 我正在考虑使用Mahout进行实现,但是我认为这只是一个概念,与系统关系不大. 谢谢 解决方案 Mahout不推荐使用Canopy,因此我完全不会使用它. 它是快速的,因此其想法是比随机估计起始质心更快,从而使kmeans收敛更快. C ..
发布时间:2020-05-05 11:16:04 AI人工智能

用户与当前数据匹配

我有一个包含两个不同类型的用户(导师和Mentees)的数据库,因此我希望第二个群组(Mentees)能够“搜索"与他们的个人资料相匹配的第一个群组(Mentors)中的人.导师和Mentee可以随时进入和更改个人资料中的项目. 当前,我正在使用Apache Mahout进行用户匹配(recommender.mostSimilarIDs()).我遇到的问题是,每次有人搜索时,我都必须重新加载 ..
发布时间:2020-05-05 11:16:02 Java开发