data-mining相关内容
我遇到了与此帖子相同的问题,但是我没有足够的积分在那里添加评论.我的数据集有 100 万行,100 列.我也在使用 Mllib KMeans,它非常慢.事实上,这项工作永远不会完成,我必须杀死它.我在谷歌云(dataproc)上运行它.如果我要求较少数量的集群(k=1000),它就会运行,但仍然需要超过 35 分钟.我需要它运行 k~5000.我不知道为什么它这么慢.考虑到工作人员/节点的数量和
..
今天一个关于充满数据挖掘先验算法的for循环的问题.我正在研究先验算法中的结果分析,但是,正如您已经知道的那样,算法的两个主要参数(置信度和支持度)是之前设置的,但不知道结果.这意味着有时您必须尝试不同的参数组合才能达到令人满意的结果.我决定尝试在 R 中设置一个 for 循环,我打算达到这种类型的结果: vector s cx1 y1 z1x2 y1 z2x3 y1 z3x4 y2 z1x5
..
我是 Weka 的新手,我对这个工具感到困惑.我有一个关于水果价格和相关属性的数据集.我正在尝试使用数据集预测特定的水果价格.由于我是 Weka 的新手,我无法弄清楚如何完成这项任务.请帮助我或指导我学习有关如何进行预测的教程,以及执行此任务的最佳方法或算法是什么. 解决方案 如果您想了解更多关于保存训练好的分类器并稍后加载以进行预测的信息,请参阅以下内容. 假设您要使用 Weka
..
假设我有一个多类数据集(例如 iris).我想执行分层的 10 倍 CV 来测试模型性能.我在包 splitstackchange 中找到了一个名为 stratified 的函数,它根据我想要的数据比例给我一个分层的折叠.因此,如果我想要一个测试折叠,它将是 0.1 个数据行. #One Fold库(splitstackchange)分层(虹膜,c(“物种"),0.1) 我想知道如何在 10
..
我正在尝试从该网站上抓取数据: https://www.realestate.com.au/find-agent/victoria-park-wa-6100?page=1&source=结果 但是当我向该链接发送请求时,它将返回429响应.请任何人都可以帮助我解决这个问题 我的代码: 导入请求标头= {'authority':'www.realestate.com.au','met
..
我的数据帧参差不齐,每一行都是一个或多个实体在时间上的出现,就像这样: (time1)实体a实体f实体z(time2)实体g实体h(time3)实体o实体p实体k实体L(time4)实体M 我想从第二个向量(节点列表)中找到的实体子集创建用于网络分析的边缘列表.我的问题是我不知道: 1).如何仅对节点列表中的实体进行子集化.我正在考虑 datanew
..
我正在尝试对版本历史进行关联挖掘.我在mysql中有交易数据.Weka先验算法需要某种格式的arff或csv文件.每个项目都必须有列.对于交易中的每个项目,这些值将被指定为TRUE或FALSE.我正在寻找一种使用Weka InstanceQuery创建此文件的方法.如果交易数据很大,还有哪些选择. 解决方案 对于第二部分,我可以回答:如果交易数据巨大,则可以选择.Weka是一款优秀的软件,
..
我目前正在R中构建一个应用程序,以计算QR矩阵分解,QR非负矩阵分解和计算ICA.目前,我正在完成第一个任务.我收到以下错误: source("trial.R")source("trial.R")中的错误:trial.R:153:0:输入意外结束151:152:^ 代码: 库(rworldmap)install.packages("plotrix")图书馆(Ptritrix)instal
..
我正在尝试获取以下Google工作表的不同工作表中显示的COVID-19数据.G工作表开放供公众使用,URL仅返回第一个工作表.我要抓取所有工作表.有谁可以帮忙.这是Google工作表链接:
..
我正在尝试向Graph API发送发布请求,但我成功了,但是我想在scrapy中发送相同的请求,但是我不知道如何在带有标题和有效负载的scrapy中发送发布请求./p> 这是我的代码 导入请求url ='https://www.kickstarter.com/graph'标头= {'authority':'www.kickstarter.com','method':'POST','路径':'/
..
所以我有这张桌子: Trans_ID名称Fuzzy_Value Total_Item100 I1 0.33333333 3100 I2 0.33333333 3100 I5 0.33333333 3200 I2 0.5 2200 I5 0.5 2300 I2 0.5 2300 I3 0.5 2400 I1 0.33333333 3400 I2 0.33333333 3400 I4 0.3333
..
似乎有太多与机器学习相关的子字段.是否有一本书或博客概述了这些不同的领域,每个领域做什么,也许如何入门以及需要哪些背景知识? 解决方案 这是我所听说过的关于机器学习的最好描述: 机器学习实际上是一种软件方法.这是生成软件的一种方式.因此,它使用统计信息,但从根本上来说,它几乎就像一个编译器.您使用数据制作程序.- John Platt,微软研究院杰出科学家 在他的中 人工智能系列讲座
..
已给我2个数据集,并希望使用KNIME对这些数据集进行聚类分析. 完成聚类后,我希望对两种不同的聚类算法进行性能比较. 关于聚类算法的性能分析,这是时间的度量(算法时间复杂度和执行数据聚类所需的时间等)还是聚类输出的有效性?(或两者都有) 还有其他角度来确定聚类算法的性能(或缺乏性能)吗? 在此先感谢 T 解决方案 这在很大程度上取决于您可用的数据. 衡
..
我正在寻找一种解决以下问题的有效算法: 给出2D空间中的一组点,其中每个点由其X和Y坐标定义.需要将此点集划分为一组簇,以便如果两个任意点之间的距离小于某个阈值,则这些点必须属于同一簇: 朴素的算法可能看起来像这样: 让 R 为群集的结果列表,最初为空 让 P 为点列表,最初包含所有点 从 P 中选择随机点,并创建仅包含此点的群集 C .从 P 删除此点对于 P 中的每个点
..
想知道我能否在C#中实现NavieBayes算法?我只想使用C#中的Navie Bayes算法来计算精度,TP速率,FP速率等。 我只是使用SQL计算数据集的均值和标准差逻辑 SELECT状态,AVG([v2o] * 1.0)来自可移植性,其中state ='Queensland'GROUP BY状态 和 SELECT状态,STDEV([v2o] * 1.0
..
因此,我想根据一起购买的物品并根据eclat的Wiki查找样式和“簇”: Eclat算法用于执行项目集挖掘。项目集挖掘使我们可以发现数据中的频繁模式,例如,消费者购买牛奶,也购买面包。这种类型的模式称为关联规则,并在许多应用程序域中使用。 但是,当我在R中使用eclat时,通过tidLists检索结果时,将获得“零频繁项”和“ NULL”。有人可以看到我在做什么错吗? 完整的数据
..
我正在尝试一些数据挖掘,并尝试从Twitter检索数据。 当我尝试安装软件包'twitteR'时,出现以下警告: install.packages中的警告: 个软件包“ rjson”的下载失败 但是它将加载其余的软件包。然后,当我尝试调用该库时: > library(twitteR) 加载所需的软件包:ROAuth 加载所需的软件包:RCurl 加载所需的
..
我有一个数据集(CSV文件),可以使用Apriori算法查找频繁的项目集。 col1,col2,col3 面包,黄油,? 可乐,面包和黄油 我正在为此目的使用WEKA。输出采用以下格式: ... 大型项目集L(2): col1 =面包col2 =黄油1 col1 =可乐col2 =面包1 col1 =可乐col3 =黄油1 col2 =面包co
..
我很好奇今天的社交网站上如何使用作品。 例如,您输入喜欢的电影列表,系统会建议您喜欢的其他电影(基于喜欢其他与您喜欢相同电影的人的电影)。我认为在大型数据集上以纯SQL方式(将我的电影与电影用户的列表结合在一起,并按电影标题将用户电影分组并对其应用计数)来实现,因为这样的查询“繁重”,因此无法实现。 同时,我们不需要确切的解决方案,大约就足够了。我不知道有没有办法对传统的RDBMS实施
..
我在df列中有一堆日期,格式如下:dd.mm.yyyy 我希望它看起来像这样:01/2020( mm.yyyy) 如何从所有日期中删除日期? 解决方案 除了 @Greg 的格式选项使用如下所示的 sub > sub(“。*?/”,“”,“ 13/01/2020”) [1]“ 01/2020”
..