data-mining - IT屋-程序员软件开发技术分享社区

如何在一个负向回溯捕获词条正则表达式之间捕获未知数量的单词？

我正在尝试排除单词&owner"；在单词"；og"；之前的某个位置的记录主人有一只狗(不包括) 主人有一只黑色和棕色的狗(不包括) John有一只狗(包括) John有一只黑色和棕色的狗(包括) 以下是当前正则表达式： (? ..

发布时间：2022-08-16 14:24:10 python regex data-mining AI人工智能

如何在WEKA中用新的训练数据更新训练过的模型(weka.classifiers.functions.MultilayerPerceptron)？

我要加载我以前训练的模型，然后使用新的训练数据更新此模型。但我发现这项任务很难完成。我从Weka Wiki了解到可以以增量方式训练实现weka.ategfiers.Updateable分类器接口的分类器。但是，我训练的回归模型使用的是weka.classifiers.functions.MultilayerPerceptron分类器，该分类器没有实现可更新分类器。然 ..

发布时间：2022-07-20 17:08:48 machine-learning neural-network data-mining weka regression AI人工智能

用R编写自己的KMeans算法

我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手，所以请不要因为我看不到明显的东西而评判我。在当前状态下，该算法取两个向量x，y，计算每个数据点到簇中心的距离，并分配从其中心到数据点距离最小的簇。当分配没有变化，因此聚类中心没有变化时，算法停止。 # Sample data set.seed(100) xval ..

发布时间：2022-07-20 17:03:31 r algorithm machine-learning data-mining k-means AI人工智能

如何执行K-medoid

我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法，但我不能理解如何开始和迭代。例如：我有6个点、k、c1和c2之间的距离矩阵。如果有人能教我如何在这个例子上执行K-medoid算法，我会很高兴的。如何开始和迭代？谢谢推荐答案更多细节：将K设置为所需的簇数，让我们使用2。随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让 ..

发布时间：2022-07-01 20:10:34 cluster-analysis data-mining k-means AI人工智能

基于混淆矩阵和Caret统计量的零-R模型计算灵敏度和特异度

这是我从R中的confusionMatrix()函数得到的结果，它基于Zero-R模型。我可能设置了错误的函数，根据它的结果，我手动获得的结果与confusionMatrix()函数的灵敏度答案1.0000之间存在不匹配，因为答案因随机种子而异： > sensitivity1 = 213/(213+128) > sensitivity2 = 211/(211+130) > sensitivi ..

发布时间：2022-05-23 15:32:06 r classification data-mining j48 AI人工智能

ElasticSearch：统计一组文档中一组单词的出现频率

我有以下ElasticSearch查询： { "from": 0, "sort": [ "_score" ], "fields": [ "id", "title", "text" ], "query": { "query_string": { "fields": [ "title", ..

发布时间：2022-05-23 15:27:30 elasticsearch full-text-search data-mining word-frequency AI人工智能

使用python根据条件选择两行或多行连续行

我有一个这样的数据集： user time city cookie index A 2019-01-01 11.00 NYC 123456 1 A 2019-01-01 11.12 CA 234567 2 A 2019-01-01 11.18 ..

发布时间：2022-05-23 15:16:07 python-3.x pandas numpy dataframe data-mining AI人工智能

R：使用RORR绘制多条不同颜色的ROC曲线

以下代码摘自@adibender对“一条曲线图中的多条ROC曲线”的回答。代码部分来自？plot.Performance。 library(ROCR) data(ROCR.simple) preds ..

发布时间：2022-05-23 15:08:40 r plot machine-learning data-mining roc AI人工智能

为什么F度量是调和平均值，而不是精确度和召回率度量的算术平均值？

当我们同时考虑精度和召回率时，我们取这两个度量的调和平均值，而不是简单的算术平均值。取调和平均值而不是简单平均值背后的直观原因是什么？推荐答案这里我们已经有了一些详细的答案，但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。根据测量理论，综合测量应满足以下6个定义：连通性(两对可排序)和传递性(如果e1>；=e2且e2 ..

发布时间：2022-05-23 15:03:20 machine-learning classification data-mining AI人工智能

K-Means聚类-输出聚类包含相同数量的元素，但顺序不同[Python]

我遵循this tutorial对包含单个单词的列表执行K-Means聚类。这是一个基于板球的项目，所以我选择了K=3，这样以后我就可以将这三个群集区分为[击球，保龄球，防守]。但是，编译代码后，结果3个集群中的元素都相同，但顺序不同。我试着把最初的列表弄清楚，但也不能解决问题。附加下面的代码。 from sklearn.feature_extraction.text import Tfid ..

发布时间：2022-03-22 11:42:06 python cluster-analysis k-means data-mining AI人工智能

DBSCAN算法是否可以创建小于minPts的集群？

我刚刚编写了DBSCAN算法，我想知道DBSCAN算法是否允许群集中的点数少于使用的minPts参数。我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html验证我的实现，它似乎工作正常，只是遇到了这个问题。我正在对一个样本数据集运行一些模拟，我一直在使用minPts为3。DBSCAN算法通常会从数据集创 ..

发布时间：2022-03-22 11:06:17 machine-learning data-mining cluster-analysis dbscan AI人工智能

数据挖掘任务的数据集

我在数据挖掘领域相对较新.我目前正在做一些数据预处理算法，例如 PCA 和 min max Normalization.我们的教授说我们可以从网上下载可用的数据集.但在初始阶段，我想要一个简单的数据集，我的算法的属性数量相对较少，然后会切换到各种复杂的数据集. 谁能提供您在数据挖掘算法中必须使用的简单数据集的链接?例如与学生的分数、年龄、身高等或公司的员工数据有关的东西.任何帮助将不胜感激. ..

发布时间：2022-01-21 13:14:47 dataset data-mining AI人工智能

Apriori算法的超市数据集

..

发布时间：2022-01-21 13:10:37 dataset integration-testing data-mining apriori AI人工智能

在 r 中绘制集群成员

我在 R 中使用 DTW 包.我终于完成了层次聚类.但我想像下图一样单独绘制时间序列集群. sc ..

发布时间：2022-01-11 10:17:19 r plot time-series data-mining hierarchical-clustering AI人工智能

如何对时间序列数据执行 K-means 聚类?

如何对时间序列数据进行 K 均值聚类?我理解当输入数据是一组点时这是如何工作的，但我不知道如何用 1XM 对时间序列进行聚类，其中 M 是数据长度.特别是，我不确定如何更新时间序列数据的集群平均值. 我有一组带标签的时间序列，我想使用 K-means 算法来检查我是否会得到类似的标签.我的 X 矩阵将是 N X M，其中 N 是时间序列的数量，M 是上面提到的数据长度. 有人知道怎么做 ..

发布时间：2022-01-11 09:37:27 matlab time-series cluster-analysis data-mining k-means AI人工智能

R 随机森林变量重要性

我正在尝试使用随机森林包在 R 中进行分类. 列出的变量重要性度量是: 0 类变量 x 的平均原始重要性得分第 1 类变量 x 的平均原始重要性得分 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思"是什么，因为我知道它们的定义.我想知道的是如何使用它们. 我真正想知道的是，这些值仅在它们的准确度、什么是好的值、什么是 ..

发布时间：2022-01-07 23:15:32 r statistics data-mining random-forest AI人工智能

字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到，当文本包含拼写错误时，字符级 n-gram 比单词级 n-gram 更受欢迎，因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑? ..

发布时间：2022-01-02 17:55:24 nlp data-mining text-mining n-gram AI人工智能

估计句子之间“近似"语义相似性的一些好方法是什么?

过去几个小时我一直在查看 SO 上的 nlp 标签，我相信我没有错过任何东西，但如果我错过了，请务必指出问题所在. 与此同时，我将描述我正在尝试做的事情.我在许多帖子中观察到的一个常见概念是语义相似性很难.例如，从这篇帖子中，公认的解决方案建议如下: 首先，无论是从计算的角度语言学和理论语言学都不清楚是什么术语“语义相似性"的含义正是如此.....考虑以下示例:皮特和罗布在车站附近发现了一 ..

发布时间：2022-01-02 17:40:30 python nlp machine-learning data-mining nltk AI人工智能

使用 PHP 进行文本挖掘

我正在为我正在上的大学课程做一个项目. 我正在使用 PHP 构建一个简单的网络应用程序，该应用程序根据一组字典将推文分为“积极"(或快乐)和“消极"(或悲伤).我现在想到的算法是朴素贝叶斯分类器或决策树. 但是，我找不到任何 PHP 库可以帮助我进行一些严肃的语言处理.Python 有 NLTK(http://www.nltk.org).PHP 有没有类似的东西? 我打算使用 W ..

发布时间：2022-01-02 17:40:11 php nlp data-mining nltk weka PHP

如何判断一个句子是否是疑问句(疑问句)?

是否有开源 Java 库/算法可用于查找特定文本片段是否为问题? 我正在开发一个问答系统，需要分析用户输入的文本是否是一个问题. 我认为这个问题可能可以通过使用开源 NLP 库来解决，但它显然比简单的词性标记更复杂.因此，如果有人可以通过使用现有的开源 NLP 库来告诉它的算法，那也很好. 如果您知道使用数据挖掘来解决此问题的库/工具包，也请告诉我.虽然很难获得足够的数据用于训练，但我将能够 ..

发布时间：2022-01-02 17:24:34 java algorithm nlp data-mining text-processing Java开发

data-mining相关内容