scikit-learn相关内容
我想在numpy中运行一个相对简单的随机抽奖,但我找不到一个好的表达方式.我认为最好的方法是将其描述为从骨灰盒中提取而无需更换.我有一个有 k 种颜色的骨灰盒,以及每种颜色的 n_k 个球.我想画m个球,知道我有多少种颜色的球. 我目前的尝试 np.bincount(np.random.permutation(np.repeat(np.arange(k), n_k))[:m], min
..
作为标题,我在pandas中有一个列(系列),它的每一行都是一个类似于[0,1,2,3,4,5]的列表.每个列表有 6 个数字.我想把这一列改成6列,比如[0,1,2,3,4,5]会变成6列,其中0就是第一列,1 是第二列,2 是第三列,依此类推.我该怎么做? 解决方案 不如@jezrael 的解决方案快.但优雅:-) apply 和 pd.Series df.a.apply(pd
..
到 N 个点的列表 [(x_1,y_1), (x_2,y_2), ... ] 我试图找到每个点的最近邻居基于距离的点.我的数据集太大而无法使用蛮力方法,因此 KDtree 似乎是最好的. 我看到 sklearn.neighbors.KDTree 可以找到最近的邻居,而不是从头开始实现.这可以用于查找每个粒子的最近邻居,即返回一个dim(N)列表? 解决方案 这个问题很宽泛,缺少细节.
..
我正在尝试让 scikit-learn 在 Google App Engine 上运行.由于 scikit-learn 不是 GAE 中默认包含的库之一,我按照this SO question的说明进行操作,但我无法让它工作.我怀疑这个问题与依赖关系有关,所以在绝望中我发现了scikit-learn 的依赖关系 并在“libs"文件夹中添加了 numpy 和 setuptolls inapp.ya
..
请不要将此标记为重复如何调用python和来自 matlab 的 sklearn? 因为在我看来这个问题并没有真正得到解答. 由于我认为 Matlab Release R2014b,可以直接使用来自 matlab 的 python. 简而言之,您只需要将 py 放在 python 调用的前面. 我的设置(在使用命令 pyversion('PATH_TO_PYTHON') 为 matlab 提
..
我正在使用 TfidfVectorizer 将原始文档集合转换为 TF-IDF 特征矩阵,然后我计划将其输入到 k-means 算法(我将实施).在该算法中,我将不得不计算质心(文章类别)和数据点(文章)之间的距离.我将使用欧几里得距离,所以我需要这两个实体具有相同的维度,在我的例子中是 max_features.这是我所拥有的: tfidf = TfidfVectorizer(max_feat
..
不知道如何解决.任何帮助非常感谢.我看到了矢量化:不是有效的集合,但不确定我是否理解这一点> train = df1.iloc[:,[4,6]]目标 =df1.iloc[:,[0]]def train(分类器, X, y):X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=
..
我正在尝试对 twitter 数据集“Sentiment140"进行情感分析,该数据集包含 160 万条带标签的推文.我正在使用 Bag Of Words (Unigram) 模型构建我的特征向量,因此每条推文由大约 20000 个特征表示.现在要使用此数据集训练我的 sklearn 模型(SVM、逻辑回归、朴素贝叶斯),我必须将整个 1.6m x 20000 特征向量加载到一个变量中,然后将其提
..
我正在尝试使用 train_test_split 和决策树回归器进行这种训练建模: 导入sklearn从 sklearn.model_selection 导入 train_test_split从 sklearn.tree 导入 DecisionTreeRegressor从 sklearn.model_selection 导入 cross_val_score# TODO:制作 DataFrame
..
我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成,如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t
..
TFIDFVectorizer 占用太多内存,矢量化 470 MB 的 100k 文档需要超过 6 GB,如果我们处理 2100 万个文档,它将无法容纳我们拥有的 60 GB RAM. 所以我们选择 HashingVectorizer 但仍然需要知道如何分发哈希向量化器.Fit 和 partial fit 没有任何作用,那么如何使用 Huge Corpus? 解决方案 我强烈建议您使
..
我的目的是根据特定类别的每个样本的排序概率绘制 PR 曲线.但是,我发现当我使用两个不同的标准数据集时,svm 的 predict_proba() 获得的概率有两种不同的行为:虹膜和数字. 第一种情况是用“iris"情况和下面的python代码进行评估的,它的工作原理是类获得最高概率. D = datasets.load_iris()clf = SVC(kernel=chi2_kernel
..
为了进行评估,我在 此链接(
..
我正在为 scikit-learn 的随机森林分类器生成特征向量.特征向量表示9个蛋白质氨基酸残基的名称.有 20 个可能的残基名称.所以,我用20个哑变量来代表一个残基名称,9个残基,我有180个哑变量. 例如,如果滑动窗口中的 9 个残基是:ARNDCQEGH(每个字母代表一个蛋白质残基的名称),我的特征向量将是: "True\tFalse\tFalse\tFalse\tFalse\t
..
我在那里.我刚开始用一个简单的例子来尝试学习机器学习.因此,我想通过使用分类器根据文件类型对磁盘中的文件进行分类.我写的代码是, 导入sklearn将 numpy 导入为 np#从桌面导入本地数据集将熊猫导入为 pdmydata = pd.read_csv('file_format.csv',skipinitialspace=True)打印我的数据x_train = mydata.scripty
..
我想知道,哪个更好地与 GridSearchCV( ..., n_jobs = ... ) 一起使用来为模型选择最佳参数集,n_jobs = -1 或 n_jobs 有很大的数字, 像 n_jobs= 30 ? 基于 Sklearn 文档: n_jobs = -1 意味着计算将在所有计算机的 CPU. 在我的 PC 上,我有一个 Intel i3 CPU,它有 2 个内核和 4
..
我正在尝试这个代码 from sklearn.feature_extraction.text import TfidfVectorizer将 numpy 导入为 nptrain_data = [“足球是运动",“重力是电影",“教育很重要"]vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,stop_words='英文')打印“
..
我正在对具有 2 个集群的 30 个样本集进行 k 均值聚类(我已经知道有两个类).我将我的数据分成训练集和测试集,并尝试计算我的测试集的准确度分数.但是有两个问题:首先我不知道我是否真的可以为 k-means 聚类做到这一点(测试集的准确度分数).第二:如果允许我这样做,无论我的实现是对还是错.这是我尝试过的: df_hist = pd.read_csv('video_data.csv')y
..
我正在使用 scikit-learning 来做一些降维任务.我的训练/测试数据采用 libsvm 格式.它是一个包含 50 万列的大型稀疏矩阵. 我使用load_svmlight_file函数加载数据,使用SparsePCA,scikit-learning抛出输入数据错误异常. 如何解决? 解决方案 稀疏 PCA 是一种用于在密集数据上寻找稀疏分解(组件具有稀疏约束)的算法.
..
我正在使用 Python 解决一些文本文档的二进制分类问题并实现 scikit-learn 库,我希望尝试不同的模型来比较和对比结果 - 主要使用 朴素贝叶斯分类器,具有 K 折 CV 和 CV=5 的 SVM.鉴于后两种模型使用 gridSearchCV(),我发现将所有方法组合到一个管道中存在困难.由于并发问题,我不能在单个实现过程中运行多个管道,因此我需要使用一个管道实现所有不同的模型.
..