scikit-learn相关内容

使用 sklearn 缩放的熊猫数据框列

我有一个包含混合类型列的 Pandas 数据框,我想将 sklearn 的 min_max_scaler 应用于某些列.理想情况下,我想就地进行这些转换,但还没有想出一种方法来做到这一点.我编写了以下有效的代码: 将pandas导入为pd将 numpy 导入为 np从 sklearn 导入预处理scaler = preprocessing.MinMaxScaler()dfTest = pd.Da ..
发布时间:2021-12-25 14:49:43 Python

使用新数据测试文本分类 ML 模型失败

我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好,来自谷歌安全团队,我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor ..

在 Python 中计算单词

我在 python 中有一个字符串列表. list = [ "Sentence1.Sentence2...", "Sentence1.Sentence2...",...] 我想删除停用词并计算所有不同字符串组合的每个词的出现次数.有什么简单的方法吗? 我目前正在考虑使用 scikit 中的 CountVectorizer(),而不是对每个单词进行迭代并组合结果 解决方案 ..
发布时间:2021-12-25 14:49:22 Python

测试折叠上的 CV 和欠采样

我对构建具有不平衡数据的 ML 分类器有点迷茫 (80:20).数据集有 30 列;目标是标签.我想预测专业课.我正在尝试重现以下步骤: 拆分训练/测试数据 在训练集上执行简历 仅对测试折叠应用欠采样 在 CV 的帮助下选择模型后,对训练集进行欠采样并训练分类器 在未触及的测试集上估计性能(召回) 我所做的如下所示: y = df['标签']X = df.drop('标签' ..

Sklearn 0.20+ 的交叉验证?

我正在尝试进行交叉验证,但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征,最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时,我收到一个错误,提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d ..

如何用 Python 和 sklearn 编写多元对数回归?

我写了一个多元多项式回归的代码,我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归?sklearn 是否有某种对数变换,就像多项式特征一样?如何在python中编写多元对数回归? 这是我的多元多项式特征代码: 将 numpy 导入为 np将熊猫导入为 pd导入数学导入 xlrd从 sklearn 导入 linear_model从 sklearn.model_select ..
发布时间:2021-12-25 14:48:53 AI人工智能

GridSearchCV 最终模型

如果我在 scikit-learn 库中使用 GridSearchCV 来寻找最佳模型,它返回的最终模型是什么?也就是说,对于每组超参数,我们训练 CV(例如 3 个)模型的数量.这样,函数是否会返回这 3 个模型中最好的模型以进行最佳参数设置? 解决方案 GridSearchCV 将返回一个包含大量信息的对象.它确实返回了在遗漏数据上表现最好的模型: best_estimator_ ..
发布时间:2021-12-25 14:48:40 AI人工智能

scikit-learn DecisionTreeClassifier.tree_.value 有什么作用?

我正在研究一个 DecisionTreeClassifier 模型,我想了解该模型选择的路径.所以我需要知道什么值赋予了 DecisionTreeClassifier.tree_.value 解决方案 嗯,你说得对,文档实际上对此并不了解(但说实话,我也不确定它的用处). > 让我们用虹膜数据复制文档中的示例: from sklearn.datasets import load_iri ..
发布时间:2021-12-25 14:48:31 AI人工智能

如何为多个数据框列制作管道?

我有可以简化为这样的数据框: 将pandas导入为pddf = pd.DataFrame([{'title': '蝙蝠侠','text': 'man bat man bat','url': 'batman.com','标签':1},{'title': '蜘蛛侠','text': '蜘蛛侠人蜘蛛','url': 'spiderman.com','标签':1},{'title': '邪恶医生','t ..
发布时间:2021-12-25 14:48:15 Python

将一个热编码结果转换回 Python 中的单列

我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型,我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......…………………………………………………… ..
发布时间:2021-12-25 14:47:46 Python

使用 Sklearn 在 Pandas DataFrame 中仅标准化数字列时的 SettingWithCopy 警告

在执行以下操作时,我收到了来自 Pandas 的 SettingWithCopyWarning.我理解警告的含义,我知道我可以关闭警告,但我很好奇我是否使用 Pandas 数据框错误地执行了这种类型的标准化(我将数据与分类列和数字列混合在一起).检查后我的数字看起来不错,但我想清理我的语法以确保我正确使用 Pandas. 我很好奇在处理具有像这样的混合数据类型的数据集时是否有更好的工作流程来 ..
发布时间:2021-12-25 14:47:19 Python