scikit-learn 第9页 - IT屋-程序员软件开发技术分享社区

使用 sklearn 缩放的熊猫数据框列

我有一个包含混合类型列的 Pandas 数据框，我想将 sklearn 的 min_max_scaler 应用于某些列.理想情况下，我想就地进行这些转换，但还没有想出一种方法来做到这一点.我编写了以下有效的代码: 将pandas导入为pd将 numpy 导入为 np从 sklearn 导入预处理scaler = preprocessing.MinMaxScaler()dfTest = pd.Da ..

使用新数据测试文本分类 ML 模型失败

我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好，来自谷歌安全团队，我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor ..

发布时间：2021-12-25 14:49:36 python machine-learning scikit-learn nlp text-processing AI人工智能

从 GridSearchCV 检索特定分类器和数据

我正在使用以下代码在服务器上运行 Python 3 分类脚本: #为转换后的数据定义knn分类器knn_classifier = neighbor.KNeighborsClassifier()# 定义 KNN 参数knn_parameters = [{'n_neighbors': [1,3,5,7, 9, 11],'leaf_size': [5, 10, 15, 20, 25, 30, 35, ..

发布时间：2021-12-25 14:49:31 python machine-learning scikit-learn cross-validation grid-search AI人工智能

在 Python 中计算单词

我在 python 中有一个字符串列表. list = [ "Sentence1.Sentence2...", "Sentence1.Sentence2...",...] 我想删除停用词并计算所有不同字符串组合的每个词的出现次数.有什么简单的方法吗? 我目前正在考虑使用 scikit 中的 CountVectorizer()，而不是对每个单词进行迭代并组合结果解决方案 ..

发布时间：2021-12-25 14:49:22 python list scikit-learn Python

测试折叠上的 CV 和欠采样

我对构建具有不平衡数据的 ML 分类器有点迷茫 (80:20).数据集有 30 列；目标是标签.我想预测专业课.我正在尝试重现以下步骤: 拆分训练/测试数据在训练集上执行简历仅对测试折叠应用欠采样在 CV 的帮助下选择模型后，对训练集进行欠采样并训练分类器在未触及的测试集上估计性能(召回) 我所做的如下所示: y = df['标签']X = df.drop('标签' ..

发布时间：2021-12-25 14:49:15 python machine-learning scikit-learn cross-validation sampling AI人工智能

Sklearn 0.20+ 的交叉验证?

我正在尝试进行交叉验证，但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征，最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时，我收到一个错误，提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d ..

发布时间：2021-12-25 14:49:01 python machine-learning scikit-learn cross-validation sklearn-pandas AI人工智能

如何用 Python 和 sklearn 编写多元对数回归?

我写了一个多元多项式回归的代码，我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归?sklearn 是否有某种对数变换，就像多项式特征一样?如何在python中编写多元对数回归? 这是我的多元多项式特征代码: 将 numpy 导入为 np将熊猫导入为 pd导入数学导入 xlrd从 sklearn 导入 linear_model从 sklearn.model_select ..

发布时间：2021-12-25 14:48:53 python machine-learning scikit-learn regression AI人工智能

GridSearchCV 最终模型

如果我在 scikit-learn 库中使用 GridSearchCV 来寻找最佳模型，它返回的最终模型是什么?也就是说，对于每组超参数，我们训练 CV(例如 3 个)模型的数量.这样，函数是否会返回这 3 个模型中最好的模型以进行最佳参数设置? 解决方案 GridSearchCV 将返回一个包含大量信息的对象.它确实返回了在遗漏数据上表现最好的模型: best_estimator_ ..

发布时间：2021-12-25 14:48:40 python machine-learning scikit-learn AI人工智能

scikit-learn DecisionTreeClassifier.tree_.value 有什么作用?

我正在研究一个 DecisionTreeClassifier 模型，我想了解该模型选择的路径.所以我需要知道什么值赋予了 DecisionTreeClassifier.tree_.value 解决方案嗯，你说得对，文档实际上对此并不了解(但说实话，我也不确定它的用处). > 让我们用虹膜数据复制文档中的示例: from sklearn.datasets import load_iri ..

发布时间：2021-12-25 14:48:31 python machine-learning scikit-learn decision-tree AI人工智能

如何在时间序列线图上绘制回归线

我有一个关于斜率值的问题，我计算如下: 将pandas导入为pd将 yfinance 导入为 yf导入 matplotlib.pyplot 作为 plt将日期时间导入为 dt将 numpy 导入为 npdf = yf.download('aapl', '2015-01-01', '2021-01-01')df.rename(columns = {'Adj Close' : 'Adj_close' ..

发布时间：2021-12-25 14:48:22 python pandas matplotlib scikit-learn time-series Python

如何为多个数据框列制作管道?

我有可以简化为这样的数据框: 将pandas导入为pddf = pd.DataFrame([{'title': '蝙蝠侠','text': 'man bat man bat','url': 'batman.com','标签':1}，{'title': '蜘蛛侠','text': '蜘蛛侠人蜘蛛','url': 'spiderman.com','标签':1}，{'title': '邪恶医生','t ..

发布时间：2021-12-25 14:48:15 python pandas scikit-learn Python

ValueError: 'balanced_accuracy' 不是 scikit-learn 中的有效评分值

我尝试将其他评分指标传递给 GridSearchCV，例如用于二元分类的 balanced_accuracy(而不是默认的 accuracy) score = ['balanced_accuracy','recall','roc_auc','f1','precision']验证器 = GridSearchCV(estimator=clf, param_grid=param_grid, scor ..

发布时间：2021-12-25 14:48:07 python machine-learning scikit-learn metrics AI人工智能

如何将特异性定义为模型评估的可调用评分器

我正在使用此代码来比较多个模型的性能: from sklearn import model_selectionX = 输入数据Y = 二进制标签模型 = []models.append(('LR', LogisticRegression()))models.append(('LDA', LinearDiscriminantAnalysis()))models.append(('KNN', KNe ..

发布时间：2021-12-25 14:48:01 python-3.x machine-learning scikit-learn AI人工智能

《字典中的线性依赖》sklearns OMP 中的异常

我正在使用 sklearns OrthogonalMatchingPursuit 来获取使用由 KSVD 算法学习的字典对信号进行稀疏编码.但是，在拟合期间，我得到以下 RuntimeWarning: /usr/local/lib/python2.7/dist-packages/sklearn/linear_model/omp.py:391: RuntimeWarning: 由于线性，正交匹配 ..

发布时间：2021-12-25 14:47:55 python machine-learning scikit-learn compression AI人工智能

将一个热编码结果转换回 Python 中的单列

我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型，我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......…………………………………………………… ..

发布时间：2021-12-25 14:47:46 python numpy scikit-learn keras sklearn-pandas Python

ModuleNotFoundError:没有名为“sklearn.utils._joblib"的模块

我在 Anaconda Jupyter 笔记本平台上使用 python 3.6.我的电脑使用 win 8.1 作为操作系统. 我试图使用以下几行从 sklearn 导入 PCA: 导入sklearn从sklearn导入分解从 sklearn.decomposition 导入 PCA 第三行返回模块错误:ModuleNotFoundError: No module named 'sklea ..

发布时间：2021-12-25 14:47:38 python scikit-learn pca joblib Python

NotFittedError: TfidfVectorizer - 未安装词汇

我正在尝试使用 scikit-learn/pandas 构建一个情绪分析器.构建和评估模型有效，但尝试对新样本文本进行分类则无效. 我的代码: 导入csv将熊猫导入为 pd将 numpy 导入为 np从 sklearn.model_selection 导入 train_test_split从 sklearn.feature_extraction.text 导入 TfidfVectorize ..

发布时间：2021-12-25 14:47:28 python machine-learning scikit-learn AI人工智能

使用 Sklearn 在 Pandas DataFrame 中仅标准化数字列时的 SettingWithCopy 警告

在执行以下操作时，我收到了来自 Pandas 的 SettingWithCopyWarning.我理解警告的含义，我知道我可以关闭警告，但我很好奇我是否使用 Pandas 数据框错误地执行了这种类型的标准化(我将数据与分类列和数字列混合在一起).检查后我的数字看起来不错，但我想清理我的语法以确保我正确使用 Pandas. 我很好奇在处理具有像这样的混合数据类型的数据集时是否有更好的工作流程来 ..

发布时间：2021-12-25 14:47:19 python pandas dataframe numpy scikit-learn Python

Knn 给予距离上的特定特征更多的权重

我正在使用 Kobe Bryant 数据集.我想用 KnnRegressor 预测 shot_made_flag. 我使用 game_date 来提取 year 和 month 特征: # 隐蔽的季节到年kobe_data_encoded['season'] = kobe_data_encoded['season'].apply(lambda x: int(re.compile('(\d+ ..

发布时间：2021-12-25 14:47:08 pandas machine-learning scikit-learn knn weighted-average AI人工智能

使用 plot_confusion_matrix 绘制多个混淆矩阵

我正在使用 sklearn.metrics 中的 plot_confusion_matrix.我想像子图一样表示这些混淆矩阵，我该怎么做? 解决方案让我们使用 good'ol iris 数据集重现这一点，并拟合多个分类器以使用 plot_confusion_matrix: from sklearn.ensemble import AdaBoostClassifier, Gradient ..

发布时间：2021-12-25 14:46:44 python matplotlib machine-learning scikit-learn seaborn AI人工智能

scikit-learn相关内容