mahout相关内容
我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集.我只知道 GroupLens Research 组. 有人知道其他可用于推荐系统实施的数据集吗?我对基于项目的数据集特别感兴趣,但也欢迎其他数据集. 解决方案 这是 Mahout 的 Sebastian. 有一个来自捷克约会网站的数据集,您可能会感兴趣:http://www.occamslab.com/pe
..
我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他是指板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,以及它
..
我在我的 4 核笔记本电脑上以伪分布式模式运行任务.如何确保所有核心都得到有效使用.目前,我的作业跟踪器显示一次只执行一项作业.这是否意味着只使用一个核心? 以下是我的配置文件. conf/core-site.xml: fs.default.namehdfs://localhost:9000 con
..
我目前正在研究从文本(很多来自网络的文章)中提取人名、位置、技术词和类别的选项,然后这些文本将输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他指的是板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务
..
我想在 solr 中聚集我的索引数据.每个 solr 文档都包含以下字段:id、title、url. 我已经阅读了 solr 7.7 文档,那里提到的聚类算法仅适用于每个查询的搜索结果.而我需要的是基于文档标题的完整索引聚类. 有人可以帮忙吗? 解决方案 据我所知,没有用于聚集整个 Solr 索引的开箱即用插件. 如果你有一些机器学习的背景,看看Apache Mahout
..
我在我的 4 核笔记本电脑上以伪分布式模式运行任务.如何确保所有内核都得到有效使用.目前,我的作业跟踪器显示一次只有一项作业正在执行.这是否意味着只使用了一个核心? 以下是我的配置文件. conf/core-site.xml: fs.default.namehdfs://localhost:9000
..
我想运行我在 Mahout In Action 中找到的这段代码: package org.help;导入 java.io.IOException;导入 java.util.ArrayList;导入 java.util.List;导入 org.apache.hadoop.conf.Configuration;导入 org.apache.hadoop.fs.FileSystem;导入 org.ap
..
我已经对Mahout教程中的综合控制数据运行了k-Means聚类算法,并且想知道是否有人可以解释如何解释输出.我运行了clusterdump并收到了类似以下的输出(为了节省空间而将其截断): CL-592 {n = 57 c = 30.726,29.813 ...] r = [3.528,3.597 ...]}重量:[道具-可选]:点数:1.0:[距离= 27.453962995925863]
..
我是数据挖掘的新手. 我想进行一些数据挖掘,但是数据不是英语,而是日语或中文. 数据挖掘是否支持这些语言? 如果是,我们如何实现?任何工具和博客. 感谢您的帮助. 解决方案 答案与往常一样:是和否. 尽管实际上没有理论上的问题,但是亚洲语言还是有一些实际问题.典型的文本数据挖掘管道包括 充油(运行->运行) 删除停用词(a,the,...)和其他没有帮助的词 丰
..
我正在尝试从 https://cwiki运行Wikipedia Bayes示例.apache.org/confluence/display/MAHOUT/Wikipedia + Bayes + Example 当我运行以下命令时:$ MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $ MAHOUT_HOME/examples/temp/enw
..
我编写了一个应用程序,以便当我给它提供推荐ID时,它会产生成功的推荐.但是,当我提出跟进请求时,也会给我同样的建议.我希望它能返回不同的建议. 谢谢 解决方案 如果结果列表足够大,则可以考虑改组列表并返回其子集.
..
我希望能够使用Java构建模型,我可以通过以下方式使用CLI进行构建: ./mahout trainlogistic --input Candy-Crush.twtr.csv \ --output ./model \ --target hd_click --categories 2 \ --predictors click_frequency
..
鉴于以下用户偏好数据集,我正在使用Mahout的EuclideanDistanceSimilarity类对多个用户的相似性进行排名.首选项的范围目前是1到5之间的所有整数.但是,我可以控制秤,如果有帮助,可以更改. User Preferences: Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 1
..
我想基于Mahout构建推荐模型.我的数据集格式除了用户ID,项目ID,评分和时间戳之外,还有其他列.因此,我认为我需要扩展 FileDataModel. 我以 JesterDataModel 为例.但是,我对逻辑流程有疑问.在其 buildModel()方法中,首先构造了一个空的映射“数据".然后将其扔到processFile中.我假设在此方法中修改了“数据",因为稍后将其用于构造Gene
..
我的问题与此类似:如何在不使用以下代码的情况下构建/运行这个简单的Mahout程序得到异常?,但是要复杂一些. 我正在编写hadoop代码,并想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类). 问题在于,前一个示例类位于Mahout的最新SNAPSHOT的math文件夹中,而后者位于核心文件夹下-两者共享与根文件夹之后的点相同的路径(org
..
我想进行某种用户-用户协作过滤,其中用户项矩阵中的用户是数据库中整个用户的选定部分.这些选定的用户会定期使用新选定的用户首选项进行刷新.新用户不应添加到矩阵中.对于新用户,根据他的喜好,我们需要从用户项目矩阵(仅选择一部分用户)中推荐项目.我不想将新的匿名用户添加到矩阵中. 在Mahout中探索,但在那里需要一些帮助. Mahout中的Recommender类具有Recommendation
..
我有这样的CSV文件: typeA,typeB typeA,typeC typeA,typeC typeA,typeB 这里,typeA,typeB和typeC是3种不同类型的实体.将类型B和C视为两种不同类型的项目,将类型A视为用户. 我可以通过将此CSV文件输入Myrrix来构建模型.该文件只有两种类型,即B(以前的CSV文件中的"B"项以用户身份出现在这里)和D.现在,假设我
..
我正在单节点集群下测试我的MR作业. 一旦我安装了mahout 9版本,Mapreduce作业就会停止在jobtracker中显示进度.(不知道安装mahout之后是否发生了这种情况) 每当我在hadoop集群中运行作业时,它都不会像以前那样在作业跟踪程序UI中显示状态,并且控制台中显示的执行日志也不同(类似于mahout日志) 为什么会这样? 谢谢. 解决方案 很可能您
..
标题中的问题是-如果Canopy可用于聚类以及确定质心,为什么不将其用于聚类,而不是仅将其用于生成质心作为KMeans聚类的输入? 我正在考虑使用Mahout进行实现,但是我认为这只是一个概念,与系统关系不大. 谢谢 解决方案 Mahout不推荐使用Canopy,因此我完全不会使用它. 它是快速的,因此其想法是比随机估计起始质心更快,从而使kmeans收敛更快. C
..
我有一个包含两个不同类型的用户(导师和Mentees)的数据库,因此我希望第二个群组(Mentees)能够“搜索"与他们的个人资料相匹配的第一个群组(Mentors)中的人.导师和Mentee可以随时进入和更改个人资料中的项目. 当前,我正在使用Apache Mahout进行用户匹配(recommender.mostSimilarIDs()).我遇到的问题是,每次有人搜索时,我都必须重新加载
..