scikit-learn相关内容
我正在尝试将 scikit-learn 的软件包从 0.16 升级到 0.17.为此,我正在尝试使用该网站上的二进制文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn.我有 Windows 7 x64 位.我在本地下载了相关包并给出了以下命令并获得了最新的需求: C:\Users\skumar>pip install --upgr
..
我已经解决了以下问题: 如何提取 GradientBosstingClassifier 的决策规则 如何从中提取决策规则scikit-learn 决策树? 但是以上两个并没有解决我的目的.以下是我的查询: 我需要使用 gradientboostingclassifer 在 Python 中构建一个模型,并在 SAS 平台中实现这个模型.为此,我需要从 gradientboo
..
每当我尝试使用“sklearn"时在 PyCharm 中,我在控制台上收到以下错误. DeprecationWarning:不推荐使用 imp 模块以支持 importlib;请参阅模块的文档以了解其他用途进口小鬼 我不确定它是否应该打扰我,因为程序仍在运行,但它很烦人.我怎样才能摆脱它? 我做了所有的改变,人们在链接的问题中推荐,但错误仍然存在. 解决方案 我从“c
..
我可以在管道上使用 GridSearchCV 并将评分指定为 'MSE' 或 'R2'.然后我可以访问 gridsearchcv._best_score 来恢复我指定的那个.如何获得 GridSearchCV 找到的解决方案的其他分数? 如果我使用另一个评分参数再次运行 GridSearchCV,它可能找不到相同的解决方案,因此它报告的分数可能与我们拥有第一个值的模型不对应. 也许我可
..
我在 scikit 工作,我正在尝试调整我的 XGBoost.我尝试使用管道进行嵌套交叉验证来重新缩放训练折叠(以避免数据泄漏和过度拟合),并与 GridSearchCV 并行进行参数调整和 cross_val_score 以最终获得 roc_auc 分数. from imblearn.pipeline import Pipeline从 sklearn.model_selection 导入 Re
..
我是 pytorch 的新手,正在尝试实现一个前馈神经网络来对 mnist 数据集进行分类.我在尝试使用交叉验证时遇到了一些问题.我的数据具有以下形状:x_train:torch.Size([45000, 784]) 和y_train: torch.Size([45000]) 我尝试使用 sklearn 的 KFold. kfold =KFold(n_splits=10) 这是我
..
在 NLTK 中有一个 nltk.download() 函数来下载 NLP 套件附带的数据集. 在 sklearn 中,它谈到加载数据集(http://scikit-learn.org/stable/datasets/) 并从 http://mldata.org/ 获取数据,但对于其余的数据集,说明是从源下载. 我应该在哪里保存从源代码下载的数据? 将数据保存到正确目录后,我可以从我的
..
我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中,您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能,我认为仅适用于英语.我该如何使用我自己的
..
我有一个包含 n-gram 的词汇表,如下所示. myvocabulary = ['tim tam', 'jam', 'fresh milk', 'chocolates', '饼干布丁'] 我想用这些词来计算 TF-IDF 值. 我还有一个语料字典如下(键=菜谱号,值=菜谱) corpus = {1:“让巧克力饼干布丁变得简单,首先得到你最喜欢的饼干巧克力",2:“tim tam 喝新
..
我同时使用 Nltk 和 Scikit Learn 进行一些文本处理.但是,在我的文件列表中,我有一些不是英文的文件.例如,以下情况可能为真: [ "这是一些用英文写的文字",“这是一些用英文写的更多文字",“Ce n'est pas en anglais"] 出于分析的目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有没有好的方法可以做到这一点?我一直在谷歌搜索,但找不到任何能让我
..
我正在尝试从 文本语料库 中获取信息最丰富的特征.从这个回答良好的问题 我知道可以按如下方式完成此任务: def most_informative_feature_for_class(vectorizer,classifier,classlabel,n=10):labelid = list(classifier.classes_).index(classlabel)feature_names =
..
好的,所以我一直在关注 TF*IDF 上的这两篇文章,但有点困惑:http://css.dzone.com/articles/machine-learning-text-feature 基本上,我想创建一个搜索查询,其中包含对多个文档的搜索.我想使用 scikit-learn 工具包以及 Python 的 NLTK 库 问题是我没有看到两个 TF*IDF 向量来自哪里.我需要一个搜索查
..
我在 scikit 中使用 TfidfVectorizer 学习从文本数据创建矩阵.现在我需要保存这个对象以便以后重用.我尝试使用泡菜,但出现以下错误. loc=open('vectorizer.obj','w')pickle.dump(self.vectorizer,loc)*** 类型错误:不能pickle instancemethod 对象 我尝试在 sklearn.externals
..
假设我正在使用以下代码创建一个神经网络: from sklearn.neural_network import MLPRegressor模型 = MLPRegressor(hidden_layer_sizes=(100,),激活='身份')模型.fit(X_train,y_train) 对于hidden_layer_sizes,我只是将其设置为默认值.但是,我真的不明白它是如何工作的.
..
我正在尝试使用 Keras Scikit Learn Wrapper 来随机搜索参数更简单.我在这里写了一个示例代码: 我生成了一个人工数据集: 我正在使用 scikit learn 中的 moons from sklearn.datasets import make_moons数据集 = make_moons(1000) 模型构建器定义: 我定义了需要的build_fn函
..
我找不到设置神经网络初始权重的方法,有人能告诉我怎么做吗?我正在使用 python 包 sklearn.neural_network.MLPClassifier. 代码如下: from sklearn.neural_network import MLPClassifier分类器 = MLPClassifier(solver="sgd")分类器.fit(X_train,y_train) 解
..
我正在 Keras 中实现多层感知器并使用 scikit-learn 执行交叉验证.为此,我受到了问题 Cross Validation in凯拉斯 from sklearn.cross_validation import StratifiedKFold定义加载数据():# 使用这个函数加载你的数据定义创建模型():# 使用这个函数创建你的模型def train_and_evaluate__mo
..
我使用 sklearn 加载了 8000 张图像.datasets.load_files 并通过来自 keras 的 resnet 获得瓶颈特征.然而,这项任务在 GPU 上需要几个小时,所以我想知道是否有办法告诉 load_files 加载 20% 之类的数据百分比. 我这样做是为了训练我自己的顶层(最后一个密集层)并将其附加到 resnet. def load_dataset(path
..
这是代码,我只在最后一行收到错误 y_pred = classifier.predict(X_test).我得到的错误是 AttributeError: 'KerasClassifier' object has no attribute 'model' # 导入库将 numpy 导入为 np导入 matplotlib.pyplot 作为 plt将熊猫导入为 pd从 sklearn 导入数据集从
..
我想在我的脚本中使用轮廓分数,从 sklearn 自动计算 k-means 聚类中的聚类数. 将 numpy 导入为 np将熊猫导入为 pd导入 csv从 sklearn.cluster 导入 KMeans从 sklearn.metrics 导入剪影_分数文件名 = "CSV_BIG.csv"# 使用 Pandas 库读取 CSV 文件.path_dir = ".\\"dataframe = p
..