scikit-learn相关内容
我有一个包含混合类型列的 Pandas 数据框,我想将 sklearn 的 min_max_scaler 应用于某些列.理想情况下,我想就地进行这些转换,但还没有想出一种方法来做到这一点.我编写了以下有效的代码: 将pandas导入为pd将 numpy 导入为 np从 sklearn 导入预处理scaler = preprocessing.MinMaxScaler()dfTest = pd.Da
..
我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好,来自谷歌安全团队,我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor
..
我正在使用以下代码在服务器上运行 Python 3 分类脚本: #为转换后的数据定义knn分类器knn_classifier = neighbor.KNeighborsClassifier()# 定义 KNN 参数knn_parameters = [{'n_neighbors': [1,3,5,7, 9, 11],'leaf_size': [5, 10, 15, 20, 25, 30, 35,
..
我在 python 中有一个字符串列表. list = [ "Sentence1.Sentence2...", "Sentence1.Sentence2...",...] 我想删除停用词并计算所有不同字符串组合的每个词的出现次数.有什么简单的方法吗? 我目前正在考虑使用 scikit 中的 CountVectorizer(),而不是对每个单词进行迭代并组合结果 解决方案
..
我对构建具有不平衡数据的 ML 分类器有点迷茫 (80:20).数据集有 30 列;目标是标签.我想预测专业课.我正在尝试重现以下步骤: 拆分训练/测试数据 在训练集上执行简历 仅对测试折叠应用欠采样 在 CV 的帮助下选择模型后,对训练集进行欠采样并训练分类器 在未触及的测试集上估计性能(召回) 我所做的如下所示: y = df['标签']X = df.drop('标签'
..
我正在尝试进行交叉验证,但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征,最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时,我收到一个错误,提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d
..
我写了一个多元多项式回归的代码,我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归?sklearn 是否有某种对数变换,就像多项式特征一样?如何在python中编写多元对数回归? 这是我的多元多项式特征代码: 将 numpy 导入为 np将熊猫导入为 pd导入数学导入 xlrd从 sklearn 导入 linear_model从 sklearn.model_select
..
如果我在 scikit-learn 库中使用 GridSearchCV 来寻找最佳模型,它返回的最终模型是什么?也就是说,对于每组超参数,我们训练 CV(例如 3 个)模型的数量.这样,函数是否会返回这 3 个模型中最好的模型以进行最佳参数设置? 解决方案 GridSearchCV 将返回一个包含大量信息的对象.它确实返回了在遗漏数据上表现最好的模型: best_estimator_
..
我正在研究一个 DecisionTreeClassifier 模型,我想了解该模型选择的路径.所以我需要知道什么值赋予了 DecisionTreeClassifier.tree_.value 解决方案 嗯,你说得对,文档实际上对此并不了解(但说实话,我也不确定它的用处). > 让我们用虹膜数据复制文档中的示例: from sklearn.datasets import load_iri
..
我有一个关于斜率值的问题,我计算如下: 将pandas导入为pd将 yfinance 导入为 yf导入 matplotlib.pyplot 作为 plt将日期时间导入为 dt将 numpy 导入为 npdf = yf.download('aapl', '2015-01-01', '2021-01-01')df.rename(columns = {'Adj Close' : 'Adj_close'
..
我有可以简化为这样的数据框: 将pandas导入为pddf = pd.DataFrame([{'title': '蝙蝠侠','text': 'man bat man bat','url': 'batman.com','标签':1},{'title': '蜘蛛侠','text': '蜘蛛侠人蜘蛛','url': 'spiderman.com','标签':1},{'title': '邪恶医生','t
..
我尝试将其他评分指标传递给 GridSearchCV,例如用于二元分类的 balanced_accuracy(而不是默认的 accuracy) score = ['balanced_accuracy','recall','roc_auc','f1','precision']验证器 = GridSearchCV(estimator=clf, param_grid=param_grid, scor
..
我正在使用此代码来比较多个模型的性能: from sklearn import model_selectionX = 输入数据Y = 二进制标签模型 = []models.append(('LR', LogisticRegression()))models.append(('LDA', LinearDiscriminantAnalysis()))models.append(('KNN', KNe
..
我正在使用 sklearns OrthogonalMatchingPursuit 来获取使用由 KSVD 算法 学习的字典对信号进行稀疏编码.但是,在拟合期间,我得到以下 RuntimeWarning: /usr/local/lib/python2.7/dist-packages/sklearn/linear_model/omp.py:391: RuntimeWarning: 由于线性,正交匹配
..
我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型,我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......……………………………………………………
..
我在 Anaconda Jupyter 笔记本平台上使用 python 3.6.我的电脑使用 win 8.1 作为操作系统. 我试图使用以下几行从 sklearn 导入 PCA: 导入sklearn从sklearn导入分解从 sklearn.decomposition 导入 PCA 第三行返回模块错误:ModuleNotFoundError: No module named 'sklea
..
我正在尝试使用 scikit-learn/pandas 构建一个情绪分析器.构建和评估模型有效,但尝试对新样本文本进行分类则无效. 我的代码: 导入csv将熊猫导入为 pd将 numpy 导入为 np从 sklearn.model_selection 导入 train_test_split从 sklearn.feature_extraction.text 导入 TfidfVectorize
..
在执行以下操作时,我收到了来自 Pandas 的 SettingWithCopyWarning.我理解警告的含义,我知道我可以关闭警告,但我很好奇我是否使用 Pandas 数据框错误地执行了这种类型的标准化(我将数据与分类列和数字列混合在一起).检查后我的数字看起来不错,但我想清理我的语法以确保我正确使用 Pandas. 我很好奇在处理具有像这样的混合数据类型的数据集时是否有更好的工作流程来
..
我正在使用 Kobe Bryant 数据集.我想用 KnnRegressor 预测 shot_made_flag. 我使用 game_date 来提取 year 和 month 特征: # 隐蔽的季节到年kobe_data_encoded['season'] = kobe_data_encoded['season'].apply(lambda x: int(re.compile('(\d+
..
我正在使用 sklearn.metrics 中的 plot_confusion_matrix.我想像子图一样表示这些混淆矩阵,我该怎么做? 解决方案 让我们使用 good'ol iris 数据集重现这一点,并拟合多个分类器以使用 plot_confusion_matrix: from sklearn.ensemble import AdaBoostClassifier, Gradient
..