recommendation-engine相关内容

Apache Mahout 的数据集

我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集.我只知道 GroupLens Research 组. 有人知道其他可用于推荐系统实施的数据集吗?我对基于项目的数据集特别感兴趣,但也欢迎其他数据集. 解决方案 这是 Mahout 的 Sebastian. 有一个来自捷克约会网站的数据集,您可能会感兴趣:http://www.occamslab.com/pe ..
发布时间:2022-01-21 13:19:39 其他开发

构建协同过滤/推荐系统

我正在设计一个网站,该网站的理念是根据用户的口味向他们推荐各种商品.(即他们评价过的项目、添加到收藏夹列表中的项目等.)亚马逊、Movielens 和 Netflix 就是这方面的一些例子. 现在,我的问题是,关于这个系统的数学部分,我不确定从哪里开始.我愿意学习所需的数学,只是我不知道需要什么类型的数学. 我在 Grouplens.org 上查看了一些出版物,特别是"迈向可扩展的 k ..

SOLR 和自然语言解析 - 我可以使用它吗?

要求 自然语言处理的词频算法 使用 Solr 虽然这个问题的答案非常好,但我想知道是否可以将我花在了解 SOLR 上的所有时间用于我的 NLP. 我想到 SOLR 是因为: 它有很多分词器并执行大量 NLP. 开箱即用非常有用. 它是一个宁静的分布式应用程序,所以很容易连接 我已经用了一段时间,所以使用它可以节省我的时间. 我可以使用 Solr 吗? ..
发布时间:2021-12-30 08:54:09 其他开发

获取 Google Analytics“访问者流量"来自 API 的数据

我正在尝试从 Google Analytics 收集信息来为我的网站构建推荐引擎.该网站由许多页面组成,因此我正在跟踪用户点击的次数,例如,从页面 A 到页面 B.目前我可以测量 A ->B 在 Google Analytics 上使用 previousPagePath = '/A' 和 nextPagePath = '/B' 进行转换,但我真正想回答的问题是“Of对网站的所有访问,包括查看页面 ..

使用 neo4j 在 Python 中开发 Web 应用程序

我计划实施一个推荐引擎,详细信息在这里.“Python"和“neo4j"数据库是我的首选.任何人都可以指出,如何将“neo4j"与“django"等任何网络框架集成?是否可以像“PHP"与“MySQL"集成一样集成它们?. 提前致谢.. 解决方案 我不明白为什么不.您可以将其与 Django & 集成.通过它服务请求... 在图数据库中建模类别 Neo4J 店铺类别示例 N ..
发布时间:2021-12-28 17:44:33 Python

如何使用 scala 或 python 在 apache spark 中运行多线程作业?

我正面临一个与 Spark 中的并发相关的问题,这使我无法在生产中使用它,但我知道有办法摆脱它.我正在尝试使用订单历史在 700 万用户上为 10 亿产品运行 Spark ALS.首先,我正在获取不同用户的列表,然后对这些用户运行循环以获取推荐,这是一个非常缓慢的过程,需要几天时间才能为所有用户获取推荐.我尝试使用笛卡尔用户和产品来一次性获得所有推荐,但再次将其提供给 elasticsearch ..

为什么 ALS.trainImplicit 可以为显式评分提供更好的预测?

编辑:我尝试了一个独立的 Spark 应用程序(而不是 PredictionIO),我的观察结果是一样的.所以这不是 PredictionIO 问题,但仍然令人困惑. 我正在使用 PredictionIO 0.9.6 和 Recommendation 模板协同过滤.我的数据集中的评分是 1 到 10 之间的数字.当我第一次使用模板中的默认值训练模型时(使用 ALS.train),预测很糟糕, ..

应用 pyspark ALS 的“recommendProductsForUsers"时出现 StackOverflow 错误;(尽管可用集群> 300GB Ram)

寻求专业知识来指导我解决以下问题. 背景: 我正在尝试使用受 这个例子 作为部署基础架构,我使用 Google Cloud Dataproc 集群. 我的代码中的基石是记录了“recommendProductsForUsers"功能here 返回模型中所有用户的前 X 个产品 我遇到的问题 ALS.Train 脚本在 GCP 上运行流畅且扩展性良好(轻松超过 100 万 ..

如何改善我的推荐结果?我正在使用 spark ALS 隐式

首先,我有一些用户应用的使用历史. 例如: user1, app1, 3(启动次数) user2, app2, 2(启动次数) user3, app1, 1(启动次数) 我基本上有两个要求: 为每个用户推荐一些应用. 为每个应用推荐类似的应用. 所以我在 spark 上使用了 MLLib 的 ALS(隐式)来实现它.一开始,我只是使用原始数据来训练模型.结果很可怕. ..

如果用户 ID 是字符串而不是连续整数,如何使用 mllib.recommendation?

我想使用 Spark 的 mllib.recommendation 库来构建一个原型推荐系统.但是,我拥有的用户数据的格式是以下格式: AB123XY45678CD234WZ12345EF345OOO1234GH456XY98765.... 如果我想使用 mllib.recommendation 库,根据 Rating 类的 API,用户 ID 必须是整数(也必须是连续的)?) 看起来必 ..

如何解决 AWS 个性化中的 Multi_vendor 问题?

我正在使用 AWS 个性化 来制作推荐系统,特别是 SIMS 模型(项目到项目的相似性模型)所以当我输入 ITEM_ID 输出 将是最相似项目的列表.直到现在事情都非常顺利,但是: 现在我有很多 SELLER_ID 礼物,因为它是一个电子商务应用程序不仅仅是一家商店.这里的问题是我希望仅针对用户所在的商店进行推荐.例如:我想要推荐 [rec1,rec2,....etc] 仅在商店中可用的商品 ..

item-to-item协同过滤,如何管理相似度矩阵?

我正在开发一个推荐引擎,我现在面临的一个问题是项目的相似度矩阵很大. 我计算了 20,000 个项目的相似度矩阵,并将它们存储为一个二进制文件,该文件大小接近 1 GB.我觉得它太大了. 如果您有这么多项目,处理相似度矩阵的最佳方法是什么? 任何建议! 解决方案 实际上相似度矩阵是关于对象与另一个对象的相似程度.每行由对象(行 id)的邻居组成,但您不需要存储所有邻居,例 ..
发布时间:2021-07-05 18:56:30 其他开发

User Based CF 或 Item Based CF 需要多少数据才能给出推荐?

User CF、Item CF 给出推荐需要多少数据? 我手动创建了一个小数据集,所以我可以很好地理解算法的工作原理. 我发现对于我创建的小数据集,Slope-One可以给推荐,User CF或者Item CF不能给推荐. 背后的原因是什么? 数据量的阈值是多少? 解决方案 在基于用户和项目的 CF 中,数据集的大小可以非常小.重要的部分是项目和数据集中用户之间的映射频率. ..
发布时间:2021-07-05 18:56:27 其他开发

为推荐引擎生成测试集

我正在研究基于隐式反馈的推荐引擎.我正在使用此链接:http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens 这使用 ALS(交替最小二乘法)来计算用户和项目向量.因为,我的数据集不能按时间分区.我随机从用户那里获取“x"个评级并将它们放入测试集中.这是我的训练用户-项目矩阵的可重现示例. ..

了解皮尔逊相关系数

作为生成皮尔逊相关系数,进行如下计算: 在第二个公式中:p_a,i 是用户a 会给项目i 的预测评分,n 是相似用户的数量ru,i 是用户u 对商品i 的评分. 如果用户 u 没有评价这个项目,将使用什么值?我在这里误解了什么吗? 解决方案 根据链接,算法的第 1 步中的早期计算是在一组项目上进行的,索引为 1 到 m,当m 是共有项的总数. 算法的第 3 步指定:“要为 ..
发布时间:2021-07-05 18:56:20 其他开发