recommendation-engine - IT屋-程序员软件开发技术分享社区

Apache Mahout 的数据集

我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集.我只知道 GroupLens Research 组. 有人知道其他可用于推荐系统实施的数据集吗?我对基于项目的数据集特别感兴趣，但也欢迎其他数据集. 解决方案这是 Mahout 的 Sebastian. 有一个来自捷克约会网站的数据集，您可能会感兴趣:http://www.occamslab.com/pe ..

发布时间：2022-01-21 13:19:39 dataset mahout recommendation-engine 其他开发

构建协同过滤/推荐系统

我正在设计一个网站，该网站的理念是根据用户的口味向他们推荐各种商品.(即他们评价过的项目、添加到收藏夹列表中的项目等.)亚马逊、Movielens 和 Netflix 就是这方面的一些例子. 现在，我的问题是，关于这个系统的数学部分，我不确定从哪里开始.我愿意学习所需的数学，只是我不知道需要什么类型的数学. 我在 Grouplens.org 上查看了一些出版物，特别是"迈向可扩展的 k ..

发布时间：2022-01-09 15:16:08 math coldfusion recommendation-engine collaborative-filtering 其他开发

如何匹配python中运行时间过长的所有键值对

用户-项目亲和度和推荐: 我正在创建一个表格，其中显示“购买此商品的客户也购买了算法" 输入数据集 productId userId产品1a产品1b产品1c产品 1 dprod2bprod2cprod2aprod2bprod3cprod3aprod3dprod3cprod4aprod4bprod4 dprod4aprod5 dprod5a 需要输出 Product1 Product2 分 ..

发布时间：2021-12-31 23:46:11 python python-3.x pandas jupyter-notebook recommendation-engine Python

SOLR 和自然语言解析 - 我可以使用它吗?

要求自然语言处理的词频算法使用 Solr 虽然这个问题的答案非常好，但我想知道是否可以将我花在了解 SOLR 上的所有时间用于我的 NLP. 我想到 SOLR 是因为: 它有很多分词器并执行大量 NLP. 开箱即用非常有用. 它是一个宁静的分布式应用程序，所以很容易连接我已经用了一段时间，所以使用它可以节省我的时间. 我可以使用 Solr 吗? ..

发布时间：2021-12-30 08:54:09 lucene solr nlp recommendation-engine 其他开发

获取 Google Analytics“访问者流量"来自 API 的数据

我正在尝试从 Google Analytics 收集信息来为我的网站构建推荐引擎.该网站由许多页面组成，因此我正在跟踪用户点击的次数，例如，从页面 A 到页面 B.目前我可以测量 A ->B 在 Google Analytics 上使用 previousPagePath = '/A' 和 nextPagePath = '/B' 进行转换，但我真正想回答的问题是“Of对网站的所有访问，包括查看页面 ..

发布时间：2021-12-29 21:23:21 google-analytics google-analytics-api recommendation-engine 其他开发

使用 neo4j 在 Python 中开发 Web 应用程序

我计划实施一个推荐引擎，详细信息在这里.“Python"和“neo4j"数据库是我的首选.任何人都可以指出，如何将“neo4j"与“django"等任何网络框架集成?是否可以像“PHP"与“MySQL"集成一样集成它们?. 提前致谢.. 解决方案我不明白为什么不.您可以将其与 Django & 集成.通过它服务请求... 在图数据库中建模类别 Neo4J 店铺类别示例 N ..

发布时间：2021-12-28 17:44:33 python django neo4j recommendation-engine Python

如何使用 scala 或 python 在 apache spark 中运行多线程作业?

我正面临一个与 Spark 中的并发相关的问题，这使我无法在生产中使用它，但我知道有办法摆脱它.我正在尝试使用订单历史在 700 万用户上为 10 亿产品运行 Spark ALS.首先，我正在获取不同用户的列表，然后对这些用户运行循环以获取推荐，这是一个非常缓慢的过程，需要几天时间才能为所有用户获取推荐.我尝试使用笛卡尔用户和产品来一次性获得所有推荐，但再次将其提供给 elasticsearch ..

发布时间：2021-11-14 21:09:23 python scala apache-spark recommendation-engine apache-spark-mllib Python

为什么 ALS.trainImplicit 可以为显式评分提供更好的预测?

编辑:我尝试了一个独立的 Spark 应用程序(而不是 PredictionIO)，我的观察结果是一样的.所以这不是 PredictionIO 问题，但仍然令人困惑. 我正在使用 PredictionIO 0.9.6 和 Recommendation 模板协同过滤.我的数据集中的评分是 1 到 10 之间的数字.当我第一次使用模板中的默认值训练模型时(使用 ALS.train)，预测很糟糕， ..

发布时间：2021-11-14 21:08:14 machine-learning apache-spark-mllib recommendation-engine collaborative-filtering AI人工智能

应用 pyspark ALS 的“recommendProductsForUsers"时出现 StackOverflow 错误；(尽管可用集群> 300GB Ram)

寻求专业知识来指导我解决以下问题. 背景: 我正在尝试使用受这个例子作为部署基础架构，我使用 Google Cloud Dataproc 集群. 我的代码中的基石是记录了“recommendProductsForUsers"功能here 返回模型中所有用户的前 X 个产品我遇到的问题 ALS.Train 脚本在 GCP 上运行流畅且扩展性良好(轻松超过 100 万 ..

发布时间：2021-11-14 21:07:51 pyspark apache-spark-mllib recommendation-engine google-cloud-dataproc gcp 其他开发

使用 ALS.recommendation 获得错误的建议

我编写了一个用于提出建议的 spark 程序.然后我使用了 ALS.recommendation 库.我用以下名为 trainData 的数据集做了一个小测试: (u1, m1, 1)(u1, m4, 1)(u2, m2, 1)(u2, m3, 1)(u3, m1, 1)(u3, m3, 1)(u3, m4, 1)(u4, m3, 1)(u4, m4, 1)(u5, m2, 1)(u5, m4, ..

发布时间：2021-11-14 21:06:39 apache-spark machine-learning apache-spark-mllib recommendation-engine collaborative-filtering AI人工智能

如何改善我的推荐结果?我正在使用 spark ALS 隐式

首先，我有一些用户应用的使用历史. 例如: user1, app1, 3(启动次数) user2, app2, 2(启动次数) user3, app1, 1(启动次数) 我基本上有两个要求: 为每个用户推荐一些应用. 为每个应用推荐类似的应用. 所以我在 spark 上使用了 MLLib 的 ALS(隐式)来实现它.一开始，我只是使用原始数据来训练模型.结果很可怕. ..

发布时间：2021-11-14 21:03:40 apache-spark recommendation-engine apache-spark-mllib 其他开发

如果用户 ID 是字符串而不是连续整数，如何使用 mllib.recommendation?

我想使用 Spark 的 mllib.recommendation 库来构建一个原型推荐系统.但是，我拥有的用户数据的格式是以下格式: AB123XY45678CD234WZ12345EF345OOO1234GH456XY98765.... 如果我想使用 mllib.recommendation 库，根据 Rating 类的 API，用户 ID 必须是整数(也必须是连续的)?) 看起来必 ..

发布时间：2021-11-14 20:59:42 apache-spark recommendation-engine apache-spark-mllib 其他开发

从猪的分组数据生成二元组合

给定我输入的 userid,itemid 格式的数据: raw: {userid: bytearray,itemid: bytearray}倾倒原料；(A,1)(A2)(A,4)(A,5)(B,2)(B,3)(B,5)(C,1)(C,5)grpd = GROUP raw BY userid;转储 grpd;(A,{(A,1),(A,2),(A,4),(A,5)})(B,{(B,2),(B,3), ..

发布时间：2021-11-12 04:08:48 hadoop apache-pig similarity recommendation-engine 其他开发

如何解决 AWS 个性化中的 Multi_vendor 问题?

我正在使用 AWS 个性化来制作推荐系统，特别是 SIMS 模型(项目到项目的相似性模型)所以当我输入 ITEM_ID 输出将是最相似项目的列表.直到现在事情都非常顺利，但是: 现在我有很多 SELLER_ID 礼物，因为它是一个电子商务应用程序不仅仅是一家商店.这里的问题是我希望仅针对用户所在的商店进行推荐.例如:我想要推荐 [rec1,rec2,....etc] 仅在商店中可用的商品 ..

发布时间：2021-10-27 19:02:38 amazon-web-services amazon-s3 recommendation-engine amazon-personalize 其他开发

item-to-item协同过滤，如何管理相似度矩阵?

我正在开发一个推荐引擎，我现在面临的一个问题是项目的相似度矩阵很大. 我计算了 20,000 个项目的相似度矩阵，并将它们存储为一个二进制文件，该文件大小接近 1 GB.我觉得它太大了. 如果您有这么多项目，处理相似度矩阵的最佳方法是什么? 任何建议！解决方案实际上相似度矩阵是关于对象与另一个对象的相似程度.每行由对象(行 id)的邻居组成，但您不需要存储所有邻居，例 ..

发布时间：2021-07-05 18:56:30 recommendation-engine 其他开发

User Based CF 或 Item Based CF 需要多少数据才能给出推荐?

User CF、Item CF 给出推荐需要多少数据? 我手动创建了一个小数据集，所以我可以很好地理解算法的工作原理. 我发现对于我创建的小数据集，Slope-One可以给推荐，User CF或者Item CF不能给推荐. 背后的原因是什么? 数据量的阈值是多少? 解决方案在基于用户和项目的 CF 中，数据集的大小可以非常小.重要的部分是项目和数据集中用户之间的映射频率. ..

发布时间：2021-07-05 18:56:27 recommendation-engine 其他开发

为推荐引擎生成测试集

我正在研究基于隐式反馈的推荐引擎.我正在使用此链接:http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens 这使用 ALS(交替最小二乘法)来计算用户和项目向量.因为，我的数据集不能按时间分区.我随机从用户那里获取“x"个评级并将它们放入测试集中.这是我的训练用户-项目矩阵的可重现示例. ..

发布时间：2021-07-05 18:56:23 machine-learning recommendation-engine collaborative-filtering AI人工智能

了解皮尔逊相关系数

作为生成皮尔逊相关系数，进行如下计算: 在第二个公式中:p_a,i 是用户a 会给项目i 的预测评分，n 是相似用户的数量ru,i 是用户u 对商品i 的评分. 如果用户 u 没有评价这个项目，将使用什么值?我在这里误解了什么吗? 解决方案根据链接，算法的第 1 步中的早期计算是在一组项目上进行的，索引为 1 到 m，当m 是共有项的总数. 算法的第 3 步指定:“要为 ..

发布时间：2021-07-05 18:56:20 recommendation-engine 其他开发

将 Pandas DataFrame 转换为稀疏矩阵

这是我的代码: data=pd.get_dummies(data['movie_id']).groupby(data['user_id']).apply(max)df=pd.DataFrame(数据)替换 = df.replace(0,np.NaN)t=replace.fillna(-1)稀疏 = sp.csr_matrix(t.values) 我的数据由两列组成:movie_id 和 use ..

发布时间：2021-07-05 18:56:17 python python-3.x pandas dataframe recommendation-engine Python

recommendation-engine相关内容