machine-learning相关内容
在sklearn.metrics.f1_core中,F1分数有一个名为“Average”的参数。宏观、微观、加权和样本意味着什么?请详细说明,因为在文档中没有正确解释。或者只需回答以下问题: 为什么Samples是多标签分类的最佳参数? 为什么微观最适合不平衡的数据集? 加权和宏观有什么区别? 推荐答案 问题是关于sklearn.metrics.f1_score中的avera
..
我目前有一个决策树,将功能名称显示为X[index],即X[0], X[1], X[2]等。 from sklearn import tree from sklearn.tree import DecisionTreeClassifier dt = DecisionTreeClassifier() dt.fit(X_train, y_train) # plot tree plt.fi
..
我正在尝试找出如何使用CROSS_VALIDATE生成混淆矩阵。我可以用我目前掌握的代码打印出分数。 # Instantiating model model = DecisionTreeClassifier() #Scores scoring = {'accuracy' : make_scorer(accuracy_score), 'precision' : mak
..
我正在尝试找出如何用python中的lightgbm来训练gbdt分类器,但与the official website中提供的示例混淆了。 按照列出的步骤,我发现VALIDATION_DATA不知从何而来,并且不知道VALID_DATA的格式,也不知道使用或不使用它的训练模型的优点或用处。 随之而来的另一个问题是,在文档中,有一句话是说“验证数据应该与训练数据对齐”,当我查看数据集的细节时,我发现
..
我希望生成具有5倍交叉验证的精度-召回曲线,以显示example ROC curve code here中的标准偏差。 下面的代码(改编自How to Plot PR-Curve Over 10 folds of Cross Validation in Scikit-Learn)给出了每一次交叉验证的PR曲线以及平均PR曲线。我还想用灰色显示平均PR曲线上下一个标准差的区域。但它显示以下错误(代
..
我有包含类别值和非类别值的数据集。 我对类别值应用了OneHotEncode,对连续值应用了StandardScaler。 transformerVectoriser = ColumnTransformer(transformers=[('Vector Cat', OneHotEncoder(handle_unknown = "ignore"), ['A', 'B', 'C']),
..
我正在使用skLearning执行多分类任务。我需要将所有数据拆分为Train_Set和TestSet。我想从每个班级随机抽取相同的样本号。 实际上,我觉得这个功能很有趣 X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=
..
我目前正在使用XgBoost开发一个回归模型。因为xgBoost有多个超参数,所以我用GridSearchCV()添加了交叉验证逻辑。作为试验,我设置了max_depth: [2,3]。我的python代码如下所示。 from sklearn.model_selection import GridSearchCV from sklearn.metrics import make_scorer
..
我在两台计算机上安装了完全相同的XGBoost(0.4)版本。这两台机器之间唯一的区别是内存和核心数量(8比16)。 使用完全相同的数据,我不能重现相同的结果。它们略有不同(第四、第五位小数)。 种子保留为默认值。 推荐答案 它是高度特定于实现的,但在一般的随机化算法中,并行RAN在使用不同数量的内核时可能会有不同的行为(除非强制随机数生成器同步,这将减慢进程)。因此,人们应该预料到这
..
当我绘制要素重要性图时,我得到了这个杂乱的图。我有超过7000个变量。我知道内置函数只选择最重要的部分,尽管最终的图形不可读。 以下是完整的代码: import numpy as np import pandas as pd df = pd.read_csv('ricerice.csv') array=df.values X = array[:,0:7803] Y = array[:,780
..
我正在使用SCRKIT学习PCA,并尝试选择满足1-(Sum I 1 To K Sii)/(Sum J 1 To N Sjj)<;=0.01的最小分量数,其中S是SvD对角线矩阵,以便保留99%的方差。 SCRICKIT LEARN是否具有返回给定方差保留百分比阈值的最小分量的函数? 有没有更有效的方法来计算n_Component? 谢谢。 推荐答案 只需将n_com
..
我想写一篇题为《K-Means聚类算法的优化版本》的论文。本文在此链接中:https://fedcsis.org/proceedings/2014/pliks/258.pdf。 这篇论文并不明显。我在Stackoverflow中看到@VPP Man被问到一些关于这方面问题(Optimizing K-means algorithm),但是因为我对此有额外的问题,所以我创建了新的问题页面。 我的
..
我已经构建了一个模型来预测客户是企业客户还是私人客户。在对模型进行训练后,我预测了我没有用于训练的1000个数据集的类别。此预测将保存在CSV文件中。 现在我有两种不同的行为: 在程序中拆分样本数据 当我使用train, sample = train_test_split(train, test_size=1000, random_state=seed)创建样本时,预测在训练期间获得相
..
我的培训生成器和有效生成器工作正常,但当我尝试预测时,我得到了某种错误,我认为这是来自测试生成器。 train_datagen = ImageDataGenerator(rotation_range=15, rescale=1./255, shear_range=0
..
我想使用PyTorch报告我的数据的90、95、99等可信区间。但置信度间隔似乎太重要了,不能让我的实现未经测试或受到批评,所以我希望得到反馈-至少应该由一些专家进行检查。此外,我已经注意到,当我的值为负值时,我得到了NaN值,这让我认为我的代码只适用于分类(至少),但我也会进行回归。我还感到惊讶的是,直接使用NumPy代码实际上给了我可微的张量……这是我意想不到的。 那么这是正确的吗?:
..
A B C D X 1 2 3 Y 5 6 7 Z 11 12 13 我想像这样转换上面的数据框 XA XB XC XD YA ..... ZD 1 2 3 4 5 14 请帮我 推荐答案 使用: s = df.stack() new_df = s.to_frame().T.set_axis([f'{x}{y}' for x, y in s.index]
..
我要加载我以前训练的模型,然后使用新的训练数据更新此模型。但我发现这项任务很难完成。 我从Weka Wiki了解到 可以以增量方式训练实现weka.ategfiers.Updateable分类器接口的分类器。 但是,我训练的回归模型使用的是weka.classifiers.functions.MultilayerPerceptron分类器,该分类器没有实现可更新分类器。 然
..
我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。 在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。 # Sample data set.seed(100) xval
..
我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的
..
使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示? 例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初始网格搜索,然后从那里进行微调。但有没有一种方法可以让我快速估计出最佳的C在10e3和10e5之间,然后执行更具体的搜索?
..