machine-learning相关内容

宏观VS微观VS加权VS样本F1得分

在sklearn.metrics.f1_core中,F1分数有一个名为“Average”的参数。宏观、微观、加权和样本意味着什么?请详细说明,因为在文档中没有正确解释。或者只需回答以下问题: 为什么Samples是多标签分类的最佳参数? 为什么微观最适合不平衡的数据集? 加权和宏观有什么区别? 推荐答案 问题是关于sklearn.metrics.f1_score中的avera ..

Lightgbm python数据集引用参数是什么意思?

我正在尝试找出如何用python中的lightgbm来训练gbdt分类器,但与the official website中提供的示例混淆了。 按照列出的步骤,我发现VALIDATION_DATA不知从何而来,并且不知道VALID_DATA的格式,也不知道使用或不使用它的训练模型的优点或用处。 随之而来的另一个问题是,在文档中,有一句话是说“验证数据应该与训练数据对齐”,当我查看数据集的细节时,我发现 ..
发布时间:2022-09-06 11:17:50 AI人工智能

具有n次交叉验证的精度召回曲线显示标准偏差

我希望生成具有5倍交叉验证的精度-召回曲线,以显示example ROC curve code here中的标准偏差。 下面的代码(改编自How to Plot PR-Curve Over 10 folds of Cross Validation in Scikit-Learn)给出了每一次交叉验证的PR曲线以及平均PR曲线。我还想用灰色显示平均PR曲线上下一个标准差的区域。但它显示以下错误(代 ..

如果我使用不同数量的内核,XGBoost会产生相同的结果吗?

我在两台计算机上安装了完全相同的XGBoost(0.4)版本。这两台机器之间唯一的区别是内存和核心数量(8比16)。 使用完全相同的数据,我不能重现相同的结果。它们略有不同(第四、第五位小数)。 种子保留为默认值。 推荐答案 它是高度特定于实现的,但在一般的随机化算法中,并行RAN在使用不同数量的内核时可能会有不同的行为(除非强制随机数生成器同步,这将减慢进程)。因此,人们应该预料到这 ..
发布时间:2022-09-04 16:22:47 AI人工智能

SKLINE PCA-计算选择k时保留的方差百分比

我正在使用SCRKIT学习PCA,并尝试选择满足1-(Sum I 1 To K Sii)/(Sum J 1 To N Sjj)<;=0.01的最小分量数,其中S是SvD对角线矩阵,以便保留99%的方差。 SCRICKIT LEARN是否具有返回给定方差保留百分比阈值的最小分量的函数? 有没有更有效的方法来计算n_Component? 谢谢。 推荐答案 只需将n_com ..
发布时间:2022-08-28 21:03:06 AI人工智能

关于优化K-Means算法的更多问题

我想写一篇题为《K-Means聚类算法的优化版本》的论文。本文在此链接中:https://fedcsis.org/proceedings/2014/pliks/258.pdf。 这篇论文并不明显。我在Stackoverflow中看到@VPP Man被问到一些关于这方面问题(Optimizing K-means algorithm),但是因为我对此有额外的问题,所以我创建了新的问题页面。 我的 ..
发布时间:2022-08-15 09:05:55 AI人工智能

使用TRAIN_TEST_SPLIT拆分数据时的精度与之后加载CSV文件时的精度不同

我已经构建了一个模型来预测客户是企业客户还是私人客户。在对模型进行训练后,我预测了我没有用于训练的1000个数据集的类别。此预测将保存在CSV文件中。 现在我有两种不同的行为: 在程序中拆分样本数据 当我使用train, sample = train_test_split(train, test_size=1000, random_state=seed)创建样本时,预测在训练期间获得相 ..

使用PyTorch计算用于分类和回归的95%可信区间的正确方法是什么?

我想使用PyTorch报告我的数据的90、95、99等可信区间。但置信度间隔似乎太重要了,不能让我的实现未经测试或受到批评,所以我希望得到反馈-至少应该由一些专家进行检查。此外,我已经注意到,当我的值为负值时,我得到了NaN值,这让我认为我的代码只适用于分类(至少),但我也会进行回归。我还感到惊讶的是,直接使用NumPy代码实际上给了我可微的张量……这是我意想不到的。 那么这是正确的吗?: ..

如何在WEKA中用新的训练数据更新训练过的模型(weka.classifiers.functions.MultilayerPerceptron)?

我要加载我以前训练的模型,然后使用新的训练数据更新此模型。但我发现这项任务很难完成。 我从Weka Wiki了解到 可以以增量方式训练实现weka.ategfiers.Updateable分类器接口的分类器。 但是,我训练的回归模型使用的是weka.classifiers.functions.MultilayerPerceptron分类器,该分类器没有实现可更新分类器。 然 ..

用R编写自己的KMeans算法

我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。 在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。 # Sample data set.seed(100) xval ..
发布时间:2022-07-20 17:03:31 AI人工智能

词汇空间大小模型';en_core_web_sm';

我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的 ..
发布时间:2022-07-20 12:31:13 AI人工智能

支持向量机-数据是否有可指示最佳参数的属性(例如,C、伽马)

使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示? 例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初始网格搜索,然后从那里进行微调。但有没有一种方法可以让我快速估计出最佳的C在10e3和10e5之间,然后执行更具体的搜索? ..
发布时间:2022-07-12 18:58:44 AI人工智能