scikit-learn相关内容

如何在 anaconda 中升级 scikit-learn 软件包

我正在尝试将 scikit-learn 的软件包从 0.16 升级到 0.17.为此,我正在尝试使用该网站上的二进制文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn.我有 Windows 7 x64 位.我在本地下载了相关包并给出了以下命令并获得了最新的需求: C:\Users\skumar>pip install --upgr ..
发布时间:2022-01-10 20:52:09 Python

从 GradientBoostingClassifier 中提取决策规则

我已经解决了以下问题: 如何提取 GradientBosstingClassifier 的决策规则 如何从中提取决策规则scikit-learn 决策树? 但是以上两个并没有解决我的目的.以下是我的查询: 我需要使用 gradientboostingclassifer 在 Python 中构建一个模型,并在 SAS 平台中实现这个模型.为此,我需要从 gradientboo ..
发布时间:2022-01-08 17:06:21 Python

imp 模块已弃用

每当我尝试使用“sklearn"时在 PyCharm 中,我在控制台上收到以下错误. DeprecationWarning:不推荐使用 imp 模块以支持 importlib;请参阅模块的文档以了解其他用途进口小鬼 我不确定它是否应该打扰我,因为程序仍在运行,但它很烦人.我怎样才能摆脱它? 我做了所有的改变,人们在链接的问题中推荐,但错误仍然存​​在. 解决方案 我从“c ..
发布时间:2022-01-08 09:56:13 Python

如何从 sklearn GridSearchCV 获取 MSE 和 R2?

我可以在管道上使用 GridSearchCV 并将评分指定为 'MSE' 或 'R2'.然后我可以访问 gridsearchcv._best_score 来恢复我指定的那个.如何获得 GridSearchCV 找到的解决方案的其他分数? 如果我使用另一个评分参数再次运行 GridSearchCV,它可能找不到相同的解决方案,因此它报告的分数可能与我们拥有第一个值的模型不对应. 也许我可 ..
发布时间:2022-01-07 23:40:27 AI人工智能

使用带有管道和 GridSearch 的 cross_val_score 拟合嵌套交叉验证

我在 scikit 工作,我正在尝试调整我的 XGBoost.我尝试使用管道进行嵌套交叉验证来重新缩放训练折叠(以避免数据泄漏和过度拟合),并与 GridSearchCV 并行进行参数调整和 cross_val_score 以最终获得 roc_auc 分数. from imblearn.pipeline import Pipeline从 sklearn.model_selection 导入 Re ..

如何下载 sklearn 的数据集?- Python

在 NLTK 中有一个 nltk.download() 函数来下载 NLP 套件附带的数据集. 在 sklearn 中,它谈到加载数据集(http://scikit-learn.org/stable/datasets/) 并从 http://mldata.org/ 获取数据,但对于其余的数据集,说明是从源下载. 我应该在哪里保存从源代码下载的数据? 将数据保存到正确目录后,我可以从我的 ..
发布时间:2022-01-02 17:58:59 AI人工智能

如何为 sklearn CountVectorizer 设置自定义停用词?

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中,您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能,我认为仅适用于英语.我该如何使用我自己的 ..
发布时间:2022-01-02 17:52:20 AI人工智能

在python中使用sklearn为n-gram计算TF-IDF

我有一个包含 n-gram 的词汇表,如下所示. myvocabulary = ['tim tam', 'jam', 'fresh milk', 'chocolates', '饼干布丁'] 我想用这些词来计算 TF-IDF 值. 我还有一个语料字典如下(键=菜谱号,值=菜谱) corpus = {1:“让巧克力饼干布丁变得简单,首先得到你最喜欢的饼干巧克力",2:“tim tam 喝新 ..
发布时间:2022-01-02 17:49:27 Python

确定文本是否为英文?

我同时使用 Nltk 和 Scikit Learn 进行一些文本处理.但是,在我的文件列表中,我有一些不是英文的文件.例如,以下情况可能为真: [ "这是一些用英文写的文字",“这是一些用英文写的更多文字",“Ce n'est pas en anglais"] 出于分析的目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有没有好的方法可以做到这一点?我一直在谷歌搜索,但找不到任何能让我 ..
发布时间:2022-01-02 17:47:41 Python

用于搜索查询的 TF*IDF

好的,所以我一直在关注 TF*IDF 上的这两篇文章,但有点困惑:http://css.dzone.com/articles/machine-learning-text-feature 基本上,我想创建一个搜索查询,其中包含对多个文档的搜索.我想使用 scikit-learn 工具包以及 Python 的 NLTK 库 问题是我没有看到两个 TF*IDF 向量来自哪里.我需要一个搜索查 ..
发布时间:2022-01-02 17:45:47 Python

用于 Scikit Learn 的 Keras 包装器 - AUC 评分器不起作用

我正在尝试使用 Keras Scikit Learn Wrapper 来随机搜索参数更简单.我在这里写了一个示例代码: 我生成了一个人工数据集: 我正在使用 scikit learn 中的 moons from sklearn.datasets import make_moons数据集 = make_moons(1000) 模型构建器定义: 我定义了需要的build_fn函 ..

如何使用 sklearn.datasets.load_files 加载数据百分比

我使用 sklearn 加载了 8000 张图像.datasets.load_files 并通过来自 keras 的 resnet 获得瓶颈特征.然而,这项任务在 GPU 上需要几个小时,所以我想知道是否有办法告诉 load_files 加载 20% 之类的数据百分比. 我这样做是为了训练我自己的顶层(最后一个密集层)并将其附加到 resnet. def load_dataset(path ..
发布时间:2021-12-27 17:32:43 Python