mahout - IT屋-程序员软件开发技术分享社区

Apache Mahout 的数据集

我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集.我只知道 GroupLens Research 组. 有人知道其他可用于推荐系统实施的数据集吗?我对基于项目的数据集特别感兴趣，但也欢迎其他数据集. 解决方案这是 Mahout 的 Sebastian. 有一个来自捷克约会网站的数据集，您可能会感兴趣:http://www.occamslab.com/pe ..

发布时间：2022-01-21 13:19:39 dataset mahout recommendation-engine 其他开发

我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项，然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据，并应提高搜索的精度. 例如当有人查询“wicket"时，他应该能够确定他是指板球运动还是 Apache 项目.到目前为止，我试图自己实现这一点，但取得了轻微的成功.现在我找到了很多工具，但我不确定它们是否适合这项任务，以及它 ..

发布时间：2022-01-15 12:40:55 lucene nlp semantic-web mahout opennlp 其他开发

在 Hadoop 伪分布式模式下充分利用所有内核

我在我的 4 核笔记本电脑上以伪分布式模式运行任务.如何确保所有核心都得到有效使用.目前，我的作业跟踪器显示一次只执行一项作业.这是否意味着只使用一个核心? 以下是我的配置文件. conf/core-site.xml: fs.default.namehdfs://localhost:9000 con ..

发布时间：2022-01-13 23:26:00 java hadoop mapreduce mahout Java开发

使用免费工具进行实体提取/识别，同时提供 Lucene 索引

我目前正在研究从文本(很多来自网络的文章)中提取人名、位置、技术词和类别的选项，然后这些文本将输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据，并应提高搜索的精度. 例如当有人查询“wicket"时，他应该能够确定他指的是板球运动还是 Apache 项目.到目前为止，我试图自己实现这一点，但取得了轻微的成功.现在我找到了很多工具，但我不确定它们是否适合这项任务 ..

发布时间：2022-01-02 17:39:03 lucene nlp semantic-web mahout opennlp 其他开发

使用solr进行离线聚类?

我想在 solr 中聚集我的索引数据.每个 solr 文档都包含以下字段:id、title、url. 我已经阅读了 solr 7.7 文档，那里提到的聚类算法仅适用于每个查询的搜索结果.而我需要的是基于文档标题的完整索引聚类. 有人可以帮忙吗? 解决方案据我所知，没有用于聚集整个 Solr 索引的开箱即用插件. 如果你有一些机器学习的背景，看看Apache Mahout ..

发布时间：2021-12-30 08:52:15 search solr cluster-analysis mahout carrot2 其他开发

Hadoop伪分布式模式下所有核心的充分利用

我在我的 4 核笔记本电脑上以伪分布式模式运行任务.如何确保所有内核都得到有效使用.目前，我的作业跟踪器显示一次只有一项作业正在执行.这是否意味着只使用了一个核心? 以下是我的配置文件. conf/core-site.xml: fs.default.namehdfs://localhost:9000 ..

发布时间：2021-12-15 19:18:47 java hadoop mapreduce mahout Java开发

我如何构建/运行这个简单的 Mahout 程序而不会出现异常?

我想运行我在 Mahout In Action 中找到的这段代码: package org.help;导入 java.io.IOException;导入 java.util.ArrayList;导入 java.util.List;导入 org.apache.hadoop.conf.Configuration;导入 org.apache.hadoop.fs.FileSystem;导入 org.ap ..

发布时间：2021-12-15 18:26:54 java hadoop mahout Java开发

如何阅读Mahout集群输出

我已经对Mahout教程中的综合控制数据运行了k-Means聚类算法，并且想知道是否有人可以解释如何解释输出.我运行了clusterdump并收到了类似以下的输出(为了节省空间而将其截断): CL-592 {n = 57 c = 30.726，29.813 ...] r = [3.528，3.597 ...]}重量:[道具-可选]:点数:1.0:[距离= 27.453962995925863] ..

发布时间：2021-05-31 19:40:23 mahout 其他开发

数据挖掘是否支持英语以外的其他语言?

我是数据挖掘的新手. 我想进行一些数据挖掘，但是数据不是英语，而是日语或中文. 数据挖掘是否支持这些语言? 如果是，我们如何实现?任何工具和博客. 感谢您的帮助. 解决方案答案与往常一样:是和否. 尽管实际上没有理论上的问题，但是亚洲语言还是有一些实际问题.典型的文本数据挖掘管道包括充油(运行->运行) 删除停用词(a，the，...)和其他没有帮助的词丰 ..

发布时间：2020-05-05 11:16:38 data-mining mahout AI人工智能

引起原因:java.lang.ClassNotFoundException:classpath

我正在尝试从 https://cwiki运行Wikipedia Bayes示例.apache.org/confluence/display/MAHOUT/Wikipedia + Bayes + Example 当我运行以下命令时:$ MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $ MAHOUT_HOME/examples/temp/enw ..

发布时间：2020-05-05 11:16:36 classpath classnotfoundexception mahout 其他开发

不同的建议...使用Mahout

我编写了一个应用程序，以便当我给它提供推荐ID时，它会产生成功的推荐.但是，当我提出跟进请求时，也会给我同样的建议.我希望它能返回不同的建议. 谢谢解决方案如果结果列表足够大，则可以考虑改组列表并返回其子集. ..

发布时间：2020-05-05 11:16:31 mahout 其他开发

在Java代码中使用mahout，而不是cli

我希望能够使用Java构建模型，我可以通过以下方式使用CLI进行构建: ./mahout trainlogistic --input Candy-Crush.twtr.csv \ --output ./model \ --target hd_click --categories 2 \ --predictors click_frequency ..

发布时间：2020-05-05 11:16:28 java classification mahout Java开发

Apache Mahout +欧几里德距离:意外结果

鉴于以下用户偏好数据集，我正在使用Mahout的EuclideanDistanceSimilarity类对多个用户的相似性进行排名.首选项的范围目前是1到5之间的所有整数.但是，我可以控制秤，如果有帮助，可以更改. User Preferences: Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 1 ..

发布时间：2020-05-05 11:16:24 mahout euclidean-distance 其他开发

为新数据集扩展Mahout

我想基于Mahout构建推荐模型.我的数据集格式除了用户ID，项目ID，评分和时间戳之外，还有其他列.因此，我认为我需要扩展 FileDataModel. 我以 JesterDataModel 为例.但是，我对逻辑流程有疑问.在其 buildModel()方法中，首先构造了一个空的映射“数据".然后将其扔到processFile中.我假设在此方法中修改了“数据"，因为稍后将其用于构造Gene ..

发布时间：2020-05-05 11:16:20 mahout datamodel mahout-recommender 其他开发

包括Mahout数学库的核心和amp;数学文件夹-Eclipse-Hadoop

我的问题与此类似:如何在不使用以下代码的情况下构建/运行这个简单的Mahout程序得到异常?，但是要复杂一些. 我正在编写hadoop代码，并想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类). 问题在于，前一个示例类位于Mahout的最新SNAPSHOT的math文件夹中，而后者位于核心文件夹下-两者共享与根文件夹之后的点相同的路径(org ..

发布时间：2020-05-05 11:16:17 java eclipse hadoop mahout Java开发

用于用户用户协同过滤的模型创建

我想进行某种用户-用户协作过滤，其中用户项矩阵中的用户是数据库中整个用户的选定部分.这些选定的用户会定期使用新选定的用户首选项进行刷新.新用户不应添加到矩阵中.对于新用户，根据他的喜好，我们需要从用户项目矩阵(仅选择一部分用户)中推荐项目.我不想将新的匿名用户添加到矩阵中. 在Mahout中探索，但在那里需要一些帮助. Mahout中的Recommender类具有Recommendation ..

发布时间：2020-05-05 11:16:13 model mahout collaborative-filtering mahout-recommender 其他开发

Myrrix中的多个模型

我有这样的CSV文件: typeA,typeB typeA,typeC typeA,typeC typeA,typeB 这里，typeA，typeB和typeC是3种不同类型的实体.将类型B和C视为两种不同类型的项目，将类型A视为用户. 我可以通过将此CSV文件输入Myrrix来构建模型.该文件只有两种类型，即B(以前的CSV文件中的"B"项以用户身份出现在这里)和D.现在，假设我 ..

发布时间：2020-05-05 11:16:11 mahout recommendation-engine mahout-recommender myrrix 其他开发

JobTracker用户界面未显示Hadoop作业的进度

我正在单节点集群下测试我的MR作业. 一旦我安装了mahout 9版本，Mapreduce作业就会停止在jobtracker中显示进度.(不知道安装mahout之后是否发生了这种情况) 每当我在hadoop集群中运行作业时，它都不会像以前那样在作业跟踪程序UI中显示状态，并且控制台中显示的执行日志也不同(类似于mahout日志) 为什么会这样? 谢谢. 解决方案很可能您 ..

发布时间：2020-05-05 11:16:08 hadoop mapreduce mahout jobs 其他开发

为什么不仅使用Canopy集群而不是与KMeans Mahout结合使用

标题中的问题是-如果Canopy可用于聚类以及确定质心，为什么不将其用于聚类，而不是仅将其用于生成质心作为KMeans聚类的输入? 我正在考虑使用Mahout进行实现，但是我认为这只是一个概念，与系统关系不大. 谢谢解决方案 Mahout不推荐使用Canopy，因此我完全不会使用它. 它是快速的，因此其想法是比随机估计起始质心更快，从而使kmeans收敛更快. C ..

发布时间：2020-05-05 11:16:04 machine-learning mahout AI人工智能

用户与当前数据匹配

我有一个包含两个不同类型的用户(导师和Mentees)的数据库，因此我希望第二个群组(Mentees)能够“搜索"与他们的个人资料相匹配的第一个群组(Mentors)中的人.导师和Mentee可以随时进入和更改个人资料中的项目. 当前，我正在使用Apache Mahout进行用户匹配(recommender.mostSimilarIDs()).我遇到的问题是，每次有人搜索时，我都必须重新加载 ..

发布时间：2020-05-05 11:16:02 java matching mahout Java开发

mahout相关内容