data-mining相关内容

查找出现在数据集中多于一行的所有两个词组

我们想运行一个查询,该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行,查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语),查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集 我们如何在 Google BigQuery 中编写此查询? 数据集只是一长 ..

数据密集型应用程序的 Java+Redis 与普通 Java 效率?

在 Java 中使用 Redis 和 Java 开发数据密集型应用程序(例如数据挖掘)是否有帮助? 对于大量数据的类似操作,与普通 Java 相比,它运行速度更快还是消耗更少的内存? 编辑:我的问题主要是关于在单台机器上运行.例如用于处理大量列表/集合/地图并对它们进行查询和排序. 解决方案 Redis 在单台机器上绝对不会比原生 Java 快.它允许您分配处理,但如果数据块真 ..
发布时间:2021-12-28 09:51:45 Java开发

Scikit-learn:如何在一维数组上运行 KMeans?

我有一个介于 0 和 1 之间的 13.876(13,876) 个值的数组.我想仅将 sklearn.cluster.KMeans 应用于此向量,以查找对值进行分组的不同集群.但是,KMeans 似乎适用于多维数组而不是一维数组.我想有一个技巧可以让它工作,但我不知道如何.我看到了 KMeans.fit() 接受 “X : 类数组或稀疏矩阵,shape=(n_samples, n_features ..
发布时间:2021-12-25 14:37:06 AI人工智能

scikit-learn DBSCAN 内存使用

更新: 最后,我选择用于对大型数据集进行聚类的解决方案是下面 Anony-Mousse 建议的解决方案.也就是说,使用 ELKI 的 DBSCAN 实现来进行我的聚类,而不是 scikit-learn 的.它可以从命令行运行并使用适当的索引,在几个小时内执行此任务.使用 GUI 和小样本数据集计算出您想要使用的选项,然后前往镇上.值得一看.任何人,请继续阅读我的原始问题的描述和一些有趣的讨论. ..

如何在大量文本中查找常用短语

我正在做一个项目,我需要在大量文本中挑选出最常见的短语.例如,假设我们有如下三个句子: 狗跳过了女人. 狗跳上了车. 狗跳了上了楼梯. 从上面的例子中,我想提取“the dog jumped",因为它是文本中最常见的短语.起初我想,“哦,让我们使用有向图 [带有重复节点]": 有向图 http://img.skitch.com/20091218-81ii2femnfgfipd ..
发布时间:2021-12-24 14:46:02 AI人工智能

有人能以一种非常简单的图形方式给出一个余弦相似度的例子吗?

维基百科上的余弦相似性文章 你能在这里显示向量吗(在列表或其他东西中)然后计算一下,让我们看看它是如何工作的? 解决方案 这里有两个非常短的文本可供比较: Julie 爱我胜过 Linda 爱我 简爱我胜过朱莉爱我 我们想知道这些文本有多相似,纯粹是在字数方面(并忽略词序).我们首先列出两个文本中的单词: 我 Julie 喜欢 Linda 胜过喜欢 Jane 现 ..
发布时间:2021-12-22 19:45:05 AI人工智能

使用 C# 和 HTMLAgility 抓取网页

我读到 HTMLAgility 1.4 是抓取网页的绝佳解决方案.作为一名新程序员,我希望我能在这个项目上得到一些投入.我正在以 C# 应用程序形式执行此操作.我正在使用的页面相当简单.我需要的信息仅停留在 2 个标签 和 之间. 我的目标是提取Part-Num、Manu-Number、Description、Manu-Country、Last Modified、Last Modifie ..
发布时间:2021-12-17 13:34:21 C#/.NET

取多少个主成分?

我知道主成分分析对矩阵进行 SVD,然后生成特征值矩阵.为了选择主成分,我们只需要取前几个特征值.现在,我们如何决定我们应该从特征值矩阵中获取的特征值的数量? 解决方案 要决定保留多少特征值/特征向量,您应该首先考虑进行 PCA 的原因.您这样做是为了减少存储需求、减少分类算法的维数,还是出于其他原因?如果您没有任何严格约束,我建议绘制特征值的累积总和(假设它们按降序排列).如果在绘图之前 ..
发布时间:2021-12-14 10:09:37 AI人工智能

PCA 对于分类特征?

据我所知,我认为 PCA 只能对连续特征执行.但是在尝试了解 onehot 编码和标签编码之间的区别时,通过以下链接中的帖子: 何时使用 One Hot Encoding vsLabelEncoder 与 DictVectorizo​​r? 它指出在 PCA 之后进行一次热编码是一种非常好的方法,这基本上意味着 PCA 应用于分类特征.因此感到困惑,请建议我. 解决方案 我不同 ..
发布时间:2021-12-14 09:50:59 AI人工智能

在 R 中聚类非常大的数据集

我有一个由 70,000 个数值组成的数据集,代表从 0 到 50 的距离,我想对这些数字进行聚类;但是,如果我正在尝试经典的聚类方法,那么我将不得不建立一个 70,000X70,000 的距离矩阵来表示我的数据集中每两个数字之间的距离,这不适合内存,所以我想知道是否有有什么聪明的方法可以解决这个问题而无需进行分层抽样?我也在 R 中尝试过 bigmemory 和 big analytics 库, ..

数据挖掘中分类和聚类的区别?

谁能解释一下数据挖掘中分类和聚类的区别? 如果可以,请举出两者的例子来理解主要思想. 解决方案 通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类. 聚类尝试对一组对象进行分组,并找出这些对象之间是否存在某些关系. 在机器学习的上下文中,分类是监督学习聚类是无监督学习. 另请参阅分类和聚类. ..

如何在 scikit learn 中使用核密度估计作为一维聚类方法?

我需要将一个简单的单变量数据集聚类为预设数量的聚类.从技术上讲,它更接近于对数据进行分箱或排序,因为它只是一维数据,但我的老板称其为聚类,所以我将坚持使用这个名称.我使用的系统当前使用的方法是 K-means,但这似乎有点过分. 是否有更好的方法来执行此任务? 其他一些帖子的答案提到了 KDE(核密度估计),但那是一种密度估计方法,它是如何工作的? 我看到 KDE 如何返回密度, ..

使用 scikit-learn 在朴素贝叶斯分类器中混合分类和连续数据

我在 Python 中使用 scikit-learn 来开发分类算法来预测某些客户的性别.其中,我想使用朴素贝叶斯分类器,但我的问题是我混合了分类数据(例如:“在线注册"、“接受电子邮件通知"等)和连续数据(例如:“年龄"、“长度"会员资格"等).我之前没有经常使用 scikit,但我认为高斯朴素贝叶斯适用于连续数据,而伯努利朴素贝叶斯可用于分类数据.但是,由于我希望在我的模型中同时 分类和连续数 ..

线性回归和逻辑回归有什么区别?

当我们必须预测分类(或离散)结果的值时,我们使用逻辑回归.我相信我们还使用线性回归来预测给定输入值的结果值.> 那么,这两种方法有什么区别? 解决方案 线性回归输出作为概率 使用线性回归输出作为概率很诱人,但这是一个错误,因为输出可能为负,并且大于 1 而概率则不能.由于回归实际上可能产生的概率可能小于 0,甚至大于1、逻辑回归介绍. 来源:http://gerardni ..
发布时间:2021-12-14 09:24:53 AI人工智能

通过它们在 python 中的接近度对值进行聚类(机器学习?)

我有一个在一组对象上运行的算法.该算法产生一个分值,指示集合中元素之间的差异. 排序后的输出是这样的: [1,1,5,6,1,5,10,22,23,23,50,51,51,52,100,112,130,500,512,600,12000,12230] 如果您将这些值放在电子表格上,您会发现它们构成了组 [1,1,5,6,1,5] [10,22,23,23] [50,51,5 ..

Matlab——多维数据的PCA分析与重构

我有一个大型多维数据集(132 维). 我是执行数据挖掘的初学者,我想使用 Matlab 应用主成分分析.但是我看到网上有很多功能解释,但不明白应该如何应用. 基本上,我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值. 在这一步之后,我希望能够根据获得的特征向量的选择对我的数据进行重建. 我可以手动执行此操作,但我想知道是否有任何预定义的函数可以执行此操作,因为 ..
发布时间:2021-12-08 14:38:02 AI人工智能

Matlab 中的高效分类

我有一个大小为 RGB uint8(576,720,3) 的图像,我想将每个像素分类为一组颜色.我已经使用 rgb2lab 从 RGB 空间转换到 LAB 空间,然后移除 L 层,所以它现在是一个由 AB 组成的 double(576,720,2). 现在,我想将其分类为我在另一张图像上训练过的一些颜色,并将它们各自的 AB 表示计算为: 集群 1:-17.7903 -13.1170集群 ..

一维数字数组聚类

假设我有一个这样的数组: [1,1,2,3,10,11,13,67,71] 有没有一种方便的方法可以将数组分割成这样的东西? [[1,1,2,3],[10,11,13],[67,71]] 我查看了类似的问题,但大多数人建议使用 k-means 对点进行聚类,例如 scipy,对于像我这样的初学者来说使用起来非常混乱.另外我认为 k-means 更适合二维或多维聚类,对吗?有没有什么方法可以 ..

什么是 Java 数据挖掘、JDM?

我在看 JDM.这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 解决方案 啊,互联网的奇迹: Java 数据挖掘 (JDM) 是一个标准用于开发数据挖掘的 Java API应用程序和工具.JDM 定义了一个用于数据的对象模型和 Java API挖掘对象和过程.JDM使应用程序能够集成数据开发采矿技术预测分析应用程序和工具.JDM 1 ..
发布时间:2021-11-15 02:05:11 Java开发