data-mining相关内容

如何在WEKA中用新的训练数据更新训练过的模型(weka.classifiers.functions.MultilayerPerceptron)?

我要加载我以前训练的模型,然后使用新的训练数据更新此模型。但我发现这项任务很难完成。 我从Weka Wiki了解到 可以以增量方式训练实现weka.ategfiers.Updateable分类器接口的分类器。 但是,我训练的回归模型使用的是weka.classifiers.functions.MultilayerPerceptron分类器,该分类器没有实现可更新分类器。 然 ..

用R编写自己的KMeans算法

我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。 在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。 # Sample data set.seed(100) xval ..
发布时间:2022-07-20 17:03:31 AI人工智能

如何执行K-medoid

我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法,但我不能理解如何开始和迭代。例如: 我有6个点、k、c1和c2之间的距离矩阵。 如果有人能教我如何在这个例子上执行K-medoid算法,我会很高兴的。如何开始和迭代? 谢谢 推荐答案 更多细节: 将K设置为所需的簇数,让我们使用2。 随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让 ..
发布时间:2022-07-01 20:10:34 AI人工智能

基于混淆矩阵和Caret统计量的零-R模型计算灵敏度和特异度

这是我从R中的confusionMatrix()函数得到的结果,它基于Zero-R模型。我可能设置了错误的函数,根据它的结果,我手动获得的结果与confusionMatrix()函数的灵敏度答案1.0000之间存在不匹配,因为答案因随机种子而异: > sensitivity1 = 213/(213+128) > sensitivity2 = 211/(211+130) > sensitivi ..
发布时间:2022-05-23 15:32:06 AI人工智能

为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?

当我们同时考虑精度和召回率时,我们取这两个度量的调和平均值,而不是简单的算术平均值。 取调和平均值而不是简单平均值背后的直观原因是什么? 推荐答案 这里我们已经有了一些详细的答案,但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。 根据测量理论,综合测量应满足以下6个定义: 连通性(两对可排序)和传递性(如果e1>;=e2且e2 ..
发布时间:2022-05-23 15:03:20 AI人工智能

K-Means聚类-输出聚类包含相同数量的元素,但顺序不同[Python]

我遵循this tutorial对包含单个单词的列表执行K-Means聚类。这是一个基于板球的项目,所以我选择了K=3,这样以后我就可以将这三个群集区分为[击球,保龄球,防守]。但是,编译代码后,结果3个集群中的元素都相同,但顺序不同。我试着把最初的列表弄清楚,但也不能解决问题。附加下面的代码。 from sklearn.feature_extraction.text import Tfid ..
发布时间:2022-03-22 11:42:06 AI人工智能

DBSCAN算法是否可以创建小于minPts的集群?

我刚刚编写了DBSCAN算法,我想知道DBSCAN算法是否允许群集中的点数少于使用的minPts参数。 我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html验证我的实现,它似乎工作正常,只是遇到了这个问题。 我正在对一个样本数据集运行一些模拟,我一直在使用minPts为3。DBSCAN算法通常会从数据集创 ..

数据挖掘任务的数据集

我在数据挖掘领域相对较新.我目前正在做一些数据预处理算法,例如 PCA 和 min max Normalization.我们的教授说我们可以从网上下载可用的数据集.但在初始阶段,我想要一个简单的数据集,我的算法的属性数量相对较少,然后会切换到各种复杂的数据集. 谁能提供您在数据挖掘算法中必须使用的简单数据集的链接?例如与学生的分数、年龄、身高等或公司的员工数据有关的东西.任何帮助将不胜感激. ..
发布时间:2022-01-21 13:14:47 AI人工智能

如何对时间序列数据执行 K-means 聚类?

如何对时间序列数据进行 K 均值聚类?我理解当输入数据是一组点时这是如何工作的,但我不知道如何用 1XM 对时间序列进行聚类,其中 M 是数据长度.特别是,我不确定如何更新时间序列数据的集群平均值. 我有一组带标签的时间序列,我想使用 K-means 算法来检查我是否会得到类似的标签.我的 X 矩阵将是 N X M,其中 N 是时间序列的数量,M 是上面提到的数据长度. 有人知道怎么做 ..

R 随机森林变量重要性

我正在尝试使用随机森林包在 R 中进行分类. 列出的变量重要性度量是: 0 类变量 x 的平均原始重要性得分 第 1 类变量 x 的平均原始重要性得分 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思"是什么,因为我知道它们的定义.我想知道的是如何使用它们. 我真正想知道的是,这些值仅在它们的准确度、什么是好的值、什么是 ..
发布时间:2022-01-07 23:15:32 AI人工智能

字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到,当文本包含拼写错误时,字符级 n-gram 比单词级 n-gram 更受欢迎,因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑? ..
发布时间:2022-01-02 17:55:24 AI人工智能

估计句子之间“近似"语义相似性的一些好方法是什么?

过去几个小时我一直在查看 SO 上的 nlp 标签,我相信我没有错过任何东西,但如果我错过了,请务必指出问题所在. 与此同时,我将描述我正在尝试做的事情.我在许多帖子中观察到的一个常见概念是语义相似性很难.例如,从这篇帖子中,公认的解决方案建议如下: 首先,无论是从计算的角度语言学和理论语言学都不清楚是什么术语“语义相似性"的含义正是如此.....考虑以下示例:皮特和罗布在车站附近发现了一 ..
发布时间:2022-01-02 17:40:30 AI人工智能

使用 PHP 进行文本挖掘

我正在为我正在上的大学课程做一个项目. 我正在使用 PHP 构建一个简单的网络应用程序,该应用程序根据一组字典将推文分为“积极"(或快乐)和“消极"(或悲伤).我现在想到的算法是朴素贝叶斯分类器或决策树. 但是,我找不到任何 PHP 库可以帮助我进行一些严肃的语言处理.Python 有 NLTK(http://www.nltk.org).PHP 有没有类似的东西? 我打算使用 W ..
发布时间:2022-01-02 17:40:11 PHP

如何判断一个句子是否是疑问句(疑问句)?

是否有开源 Java 库/算法可用于查找特定文本片段是否为问题? 我正在开发一个问答系统,需要分析用户输入的文本是否是一个问题. 我认为这个问题可能可以通过使用开源 NLP 库来解决,但它显然比简单的词性标记更复杂.因此,如果有人可以通过使用现有的开源 NLP 库来告诉它的算法,那也很好. 如果您知道使用数据挖掘来解决此问题的库/工具包,也请告诉我.虽然很难获得足够的数据用于训练,但我将能够 ..
发布时间:2022-01-02 17:24:34 Java开发