data-mining相关内容
我在R. 中使用DTW包,最后完成了层次化聚类。 ,但我想分别绘制时间序列簇,如下图所示。 sc
..
这是我可以用来列出所有终端节点的权重的方法:但是如何添加一些代码以获取响应预测以及每个终端节点ID的权重: 说我希望我的输出看起来像这样 - 这是到目前为止我能得到的重量 个节点(airct,unique(where(airct))) 谢谢 解决方案 二叉树是一个很大的S4对象,因此有时很难提取数据。 但是BinaryTree对象的plot方
..
我需要开发一种用于Web日志数据挖掘的工具。 在特定用户会话中有很多url序列(从Web应用程序日志中检索) ,我需要弄清楚网站用户的使用方式和用户组(集群)。 我是Data Mining的新手,现在对Google进行了大量研究。 找到了一些有用的信息,即查询 Web日志数据中的频繁模式挖掘似乎指向几乎完全相似的研究。 p> 所以我的问题是: 是否有任何基于Python的
..
我正在做一个数据挖掘项目,我想收集历史天气数据。我可以通过它们在 http:// www提供的Web界面获取历史数据。 ncdc.noaa.gov/cdo-web/search 。但是我想通过API以编程方式访问此数据。从我在StackOverflow上阅读的内容来看,这些数据应该是公共领域的,但是我唯一能找到的地方是在诸如Wunderground之类的非免费服务上。如何免费访问这些数据?
..
我在互联网上找到了以下代码来计算TFIDF: https://github.com/timtrueman/tf -idf / blob / master / tf-idf.py 我在函数中添加了“ 1+” def idf(word,documentList),所以我不会被0错误除: return math.log(len(documentList )/(1 +
..
我是数据挖掘的新手,对关联规则和频繁项挖掘感到困惑。对我来说,我认为两者是相同的,但是我需要这个论坛的专家意见 我的问题是 是关联规则挖掘与频繁的项目集挖掘? 谢谢 解决方案 关联规则类似于“ A,B→ C”,表示C倾向于当A和B发生时发生。一个项目集只是一个集合,例如“ A,B,C”,如果它的项目倾向于同时出现,那么这是很常见的。 查找关联规则的常用方法是找到所有常见项目集
..
Matlab,R和Python功能强大,但是对于某些我想做的数据挖掘工作而言,要么代价高昂要么缓慢。我正在考虑同时将Javascript用于 速度,良好的可视化库以及能够使用浏览器作为界面。 我面临的第一个问题是科学编程中的一个显而易见的问题,如何对数据文件进行I / O?第二个是客户端还是服务器端?最后一个问题,我可以制造出真正可移植的东西,即将其全部放在USB上并从中运行吗? 我
..
我有一些关于离群值检测的问题: 我们可以使用k均值找到离群值吗? 是否存在不接受用户输入的任何聚类算法? 我们可以使用支持向量机或任何其他监督学习算法进行异常检测吗? 每种方法的优缺点是什么? 解决方案 我将限制于我认为对提供某些线索必不可少的内容关于您的所有问题,因为这是很多教科书的主题,可能可以在单独的问题中得到更好的解决。 我不会使用k-means来发现
..
我正在尝试使用Gensim中的短语来获取句子中的二元组。 来自gensim.models import短语gensim.models.phrases中的 导入短语 文档= [“纽约市长在那里,”“机器学习有时会有用”,“纽约市长在场”] 句子流= [文档中doc的doc.split(“”)] #print(sentence_stream) bigram =短语(sentence_
..
在Java中使用Redis来开发Java中的数据密集型应用程序(例如数据挖掘)是否有帮助? 与普通Java相比,在大量数据上进行类似操作,它的工作速度更快还是消耗的内存更少? 编辑:我的问题主要是关于在一台机器上运行。例如,使用大量列表/集合/地图并对其进行查询和排序。 解决方案 Redis绝对不会在一台机器上的本机Java速度更快。它可以让您分配处理,但如果数据块确实很大,则
..
所以我有此表: Trans_ID名称Fuzzy_Value Total_Item 100 I1 0.33333333 3 100 I2 0.33333333 3 100 I5 0.33333333 3 200 I2 0.5 2 200 I5 0.5 2 300 I2 0.5 2 300 I3 0.5 2 400 I1 0.33333333 3 400 I
..
术语频率(TF)和逆文档频率(IDF)受停用词删除和词干影响如何? 谢谢! 解决方案 tf 是术语频率 idf 是反向文档频率,即通过将文档总数除以包含该术语的文档数量,然后取该商的对数来获得。 除梗将来自同一词干的所有词(例如:played,play ..)进行分组,这将增加词干的出现率,因为频率是使用词干而不是词 计算的,例如2个文档: 第一个文档包含“播放” 2次和
..
我正在做一个社区网站,要求我计算任何两个用户之间的相似度。每个用户都具有以下属性: 年龄,皮肤类型(油性,干性),头发类型(长,短,中),生活方式(活跃的户外恋人, 有人可以告诉我如何解决这个问题或为我提供一些资源吗? 解决方案 另一种计算方式(在 R 中)数据集中观测值之间的所有成对的差异(距离)。原始变量可以是混合类型。通过使用Gower的一般相异系数来处理标称,序数和(a
..
例如,当我在R(pROC软件包)中使用multiclass.roc函数时,我训练了随机林的数据集,这是我的代码: #randomForest&应该安装pROC软件包: #install.packages(c('randomForest','pROC')) 数据(iris) 库(randomForest) 库(pROC) set.seed(1000) #3类响应变量 rf = rando
..
我正在尝试使用随机森林软件包在R中进行分类。 列出的可变重要性度量是: 对于类别0的变量x的平均原始重要性得分 对于类别1的变量x的平均原始重要性得分 MeanDecreaseAccuracy MeanDecreaseGini 现在,我知道这些“含义”与我的定义一样。我想知道的是如何使用它们。 我真正想知道的是,这些值仅在它们有多精确的情况下才意味着什么?好的值,什么
..
我想使用Python Tweepy请求有关特定主题的推文(例如:“ cancer”)。但是通常它的时间只能由特定的日期指定,例如。 startSince ='2014-10-01' endUntil ='2014-10-02' for tweepy.Cursor(api.search,q =“ cancer”, since = startSince,直到= endUntil)。
..
维基百科上的余弦相似度文章 您可以在此处(列表或其他形式)显示矢量b,然后进行数学运算,让我们看看它的工作原理吗? 我m是初学者。 解决方案 下面是两个比较短的文字: 朱莉爱我胜过琳达爱我 简(Jane)喜欢我胜过朱莉(Julie)爱我 我们想知道这些文本有多么相似,仅就字数而言(并忽略字序)。我们首先列出两个文本中的单词: 我朱莉(Julie)喜欢琳达
..
我正在尝试找到一个实际上可以在R文本挖掘程序包中找到最常用的两个和三个单词短语的代码(也许还有另一个我不知道的程序包)。我一直在尝试使用令牌生成器,但似乎没有运气。 如果您以前曾在类似情况下工作过,是否可以发布经过测试且可以正常工作的代码?非常感谢! 解决方案 您可以将自定义标记化函数传递给 tm 的 DocumentTermMatrix 函数,因此,如果您安装了软件包 tau ,它
..
这几天,我一直在使用800万个寄存器的data.frame,并且我需要改进一个循环来分析这些数据。 我将描述我要解决的问题的每个过程。 首先,我必须按三个字段ClientID,日期和时间以升序排列所有data.frame。 (检查) 然后,使用排列的data.frame,我必须操作每个观察值之间的差异,只有在ClientID相同的情况下,才可以执行此操作。例如: ClientID
..
我有8000x100尺寸的数据。我需要将这8000个项目聚类。我对这些物品的订购更感兴趣。对于较小的数据,我可以从上面的代码中获得所需的结果,但对于较大的维度,我不断收到运行时错误“ RuntimeError:获取对象的str时超出了最大递归深度”。有没有另一种方法可以从“ Z”中获取重新排序的列。 从hcluster import pdist,linkage和dendrogram im
..