data-mining相关内容

使用python聚类后的有序彩色图

我有一个称为data = [5 1 100 102 3 4 999 1001 5 1 2 150 180 175 898 1012]的一维数组。我正在使用python scipy.cluster.vq在其中查找群集。数据中有3个簇。当我尝试绘制数据进行聚类后,其中没有顺序。 如果可以按照给出的相同顺序绘制数据,并且为不同的部分分配不同的颜色或颜色,则效果很好。 这是我的代码: 将 ..
发布时间:2020-10-17 22:01:27 AI人工智能

自助加入SSAS

我有一个这样的表: PersonId工作城市ParentId -------- ----- ----- -------- 101 A C1 105 102 B C2 101 103 A C1 102 然后,我需要获取人的工作与父母的城市之间的关联规则。 我使用了自引用并定义了大小写/嵌套表,但是在依赖图的结果下,人的工作或城市与父母的工作或城市 ..
发布时间:2020-10-17 22:01:14 AI人工智能

Python中具有间隙约束的非重叠模式匹配

我想找到总数。模式的非重叠匹配出现在序列中,且间隔限制为2。 例如。 2982f 2982l 2981l 是使用某种算法找到的模式。我必须找到出现在诸如 2982f 2982f 2982l 2982l 2981l 3111m 3171m 3171f 2982f 2982l 2981l………$code>之类的序列中的总数,其中最大间隙约束为2。 空白约束2表示在 2982f 2982l ..
发布时间:2020-10-17 22:01:10 AI人工智能

在R中使用tm包查找关键短语

我有一个项目,要求我搜索各个公司的年度报告并在其中找到关键短语。我已将报告转换为文本文件,创建并清理了语料库。然后,我创建了一个文档术语矩阵。 tm_term_score函数似乎仅适用于单个单词而不适用于短语。是否可以在语料库中搜索关键短语(不一定是最常用的短语)? 例如- 我想查看每个文档中“供应链财务”一词的次数在语料库中。但是,当我使用tm_term_score运行代码时-它返回 ..
发布时间:2020-10-17 22:01:06 AI人工智能

如何在Perl中跳过“死”

我正在尝试使用perl API从网站提取数据。该过程将使用uris列表作为输入。然后,我从网站上提取每个uri的相关信息。如果没有提供一个uri的信息,它将死亡。类似于下面的代码 my @tags = $ c-> posts_for(uri =>“ $ currentURI”) ;除非使用@tags,否则 将死于“无候选人相关文章”。 现在,我不希望程序在没有任何标签的情 ..
发布时间:2020-10-17 22:01:05 AI人工智能

postgres如何处理位数据类型?

我有一个表,该表的列 vector 的类型为 bit(2000)。数据库引擎如何处理此值上的 AND 和 OR 运算?它是否简单地分为32位块(或分别为64位),然后分别比较每个块,最后将结果简单地组合在一起?还是仅仅作为两个字符串处理? 我的意思是要预测,哪种用例会更快。我得到了键值数据(用户项)。 userID | itemID U1 | I1 U1 | Ix Un ..
发布时间:2020-10-17 22:00:02 AI人工智能

SQL Server和R,数据挖掘

我正在使用Microsoft SQL Management Studio 2016,该功能使我可以将R脚本添加到SQL代码中。 我的目标是实现aPriori算法过程,该过程将数据以我喜欢的方式放置,即具有x,第一个对象,y,第二个对象的表。 我被困在这里,因为我认为数据存在一些问题。错误是这样。 在执行 'sp_execute_external_script'且HRESULT为0x ..
发布时间:2020-10-17 22:00:00 AI人工智能

关于Weka中的RandomTree

当我在RandomTree配置中观察一个minNum字段时,我正在玩weka。我读了描述“叶子中实例的最小总重量”的描述。 但是,我无法真正理解它的含义。 我在玩这个数字,我意识到当我增加这个数字时,这样生成的树减少了。我无法关联为什么会发生这种情况。 任何帮助/引用都会受到赞赏。 解决方案 这与叶节点上的最少实例数有关(在决策树中,默认情况下通常为2,例如J48)。设置此参 ..
发布时间:2020-10-17 21:58:57 AI人工智能

R中Tomek链接的快速计算

我想实现tomek的链接来处理不平衡的数据。 此代码用于二进制分类问题,其中1类是多数类,0类是少数。 X输入,Y输出 我编写了以下代码,但我正在寻找一种加快计算速度的方法。 我该如何改进我的代码? ######################## ## #使用tomek链接删除重叠的观测值 #给定属于不同类的观测值i和j #(i,j)是Tomek链接,如果没有示例z,则d( ..
发布时间:2020-10-17 21:58:55 AI人工智能

查找变量和类变量之间的相关性

我有一个数据集,其中包含7个数字属性和一个标称值(即类变量)。我想知道如何才能将最好的属性用于预测类属性。是否会找到每个属性带来的最大信息收益? 解决方案 所以您要提出的问题属于以下领域:功能选择,更广泛地说是功能工程。在线上有很多关于此的文献,并且在线上肯定有很多关于如何做到这一点的博客/教程/资源。 为了给您提供一个我刚刚通读的好链接,这是一个”博客,其中包含有关在Weka中进行 ..
发布时间:2020-10-17 21:58:52 AI人工智能

如何将Rapidminer的输出写入txt文件?

我正在使用Rapidminer 5.3。我取了一个包含约三个英语句子的小文档,将其标记化并根据单词的长度对其进行过滤。我想将输出写入另一个单词文档中。文档实用程序,但是它不起作用,它只是将相同的原始文档写入新文档。但是,当我将输出写入控制台时,它给了我预期的答案。写文档实用程序出了点问题。 这是我的过程 阅读文档->令牌->过滤令牌- >写文档 解决方案 尝试以下 剪切文档( ..
发布时间:2020-10-17 21:58:49 AI人工智能

智能地抓取第一段/开始的文字

我想有一个脚本,我可以在其中输入URL,它将智能地抓住文章的第一段...除了从 标签。您是否知道有关如何执行此类操作的任何提示/教程? 更新 为进一步说明,我正在网站的一部分中,用户可以在Facebook上提交链接,该链接将从网站上获取图像以及文字。我正在使用PHP并试图确定执行此操作的最佳方法。 我说“智能”是因为我想尝试在该页面上获取内容重要,不仅是第一段,而且是最重 ..
发布时间:2020-10-17 21:58:42 PHP

搜索推特并通过标签获取推文,从而最大程度地返回返回的搜索结果

我正尝试使用R中的 twitteR软件包 ,从其API上,通过其API在Twitter上编译与世界杯相关的所有Tweet的语料库。 我将以下代码用于单个主题标签(例如)。但是,我的问题是,我似乎仅被“授权”访问有限的一组推文(在这种情况下,仅访问32条最新的推文)。 library(twitteR) reqURL ..
发布时间:2020-10-17 21:56:54 AI人工智能

如何在R中绘制/可视化C50决策树?

我正在使用C50决策树算法。我能够构建树并获得摘要,但是无法弄清楚如何绘制或绘制树。 我的C50模型称为credit_model 在其他决策树程序包中,我通常使用诸如plot(credit_model )。在rpart中,它是rpart.plot(credit_model)。 C50算法中要绘制的等价物是什么? 解决方案 这是您要查找的功能: C5.0.graph ..
发布时间:2020-10-17 21:56:48 AI人工智能

如何在Apriori算法中找到最小支持

当给出支持和置信度的百分比值时,如何在Apriori算法中找到最小支持。例如,当给定的支持和信心分别为60%和60%时,最低支持是多少? 解决方案 置信度是衡量规则有趣程度的度量。 最小支持和最小置信度由用户设置,并且是关联规则生成的Apriori算法的参数。这些参数用于排除结果中支持或置信度分别低于最小支持和最小置信度的规则。 因此,当您回答问题时,说:“例如,当支持和信心分 ..
发布时间:2020-10-17 21:56:46 AI人工智能

计算单词列表之间的相似度

我想计算两个单词列表之间的相似度,例如: ['email','user','this ','email','address','customer'] 类似于以下列表: ['email','mail','address','netmail'] 我希望比其他列表具有更高的相似性百分比,例如: ['address','ip','network'] 列表中存在 地址 。 解 ..
发布时间:2020-10-17 21:56:39 AI人工智能

关于在Weka中研究样品的初学者问题

我刚刚使用Weka在“分类”标签下训练了我的SVM分类器。 现在,我想进一步调查哪些数据样本被错误分类了,我需要研究它们的模式,但是我不知道从Weka那里可以看到什么。 有人可以给我些帮助吗? 预先感谢。 解决方案 您可以从以下位置启用该选项: 您将得到以下实例预测: ===关于测试拆分的预测=== inst#实际预测的错误预测 1 2:Iris-ver 2: ..
发布时间:2020-10-17 21:56:32 AI人工智能

Rapidminer可以从URL列表中提取xpath,而不是先保存HTML页面吗?

我最近发现了RapidMiner,对其功能感到非常兴奋。但是,我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望该程序从另一个程序生成的URL列表中抓取xpath匹配项。 (它比RapidMiner中的“抓取网络”运算符具有更多选项) 我从Neil Mcguigan看过以下教程: http://vancouverdata.blogspot.com/2011/04/web-scrapin ..