scikit-learn 第137页 - IT屋-程序员软件开发技术分享社区

python - pandas或者sklearn中如何将字符形式的标签数字化

问题例如我有一个标签列形如： [A,A,A,B,B,C,C,C,C] 转化为： [0,0,0,1,1,2,2,2,2] pandas和scikit-learn中有简单的实现吗？另外大家在学习一个新的包时是怎样根据问题找到文档的具体位置的？有啥经验可以交流下吗？谢谢啦！解决方案 pandas中是非常容易实现的,转换成Categories对象即可。术语叫做因 ..

发布时间：2017-09-06 04:06:50 python pandas scikit-learn Python

想知道pd.factorize，pd.get_dummies，sklearn.preprocessing.LableEncoder和OneHotEncoder中的diff

所有这四个功能似乎与我相似。在某些情况下，其中一些可能会产生相同的结果，有些不是。任何帮助将非常感谢！现在我知道，我认为在内部，因子分解和 LabelEncoder 的工作方式相同，在结果方面没有很大差异。我不知道他们是否会采用大量数据的类似时间。 get_dummies 和 OneHotEncoder 将产生相同的结果，但 OneHotEncoder 只能处理数字，但 get_du ..

发布时间：2017-08-16 23:55:34 python pandas encoding machine-learning scikit-learn AI人工智能

Python：UnicodeDecodeError：'utf8'编解码器无法解码字节

我正在读一堆RTF文件到python字符串。在某些文本上，我收到这个错误：追溯（最近的最后一次呼叫）：文件“11.08.py”，第47行， X = vectorizer.fit_transform（texts）文件“C：\Python27\lib\site-packages\sklearn\feature_extraction\text.py”，行 716 ..

发布时间：2017-08-16 22:58:43 python encoding utf-8 scikit-learn Python

scikit-learn：字符串分类功能的一个热编码

我正在尝试执行一个琐碎数据集的一个热编码。 data = [['a'，'dog'，'red'] ['b' cat'，'green']] 使用Scikit-Learn来预处理这些数据的最好方法是什么？在第一本能的时候，你会看到Scikit-Learn的 OneHotEncoder 。但是一个热编码器不支持字符串作为特征;它只会离散整数。所以你会 ..

发布时间：2017-08-16 22:26:16 python encoding scikit-learn one-hot Python

Sklearn - 不能在随机林分类器中使用编码数据

我很喜欢scikit学习。我正在尝试使用预处理。 OneHotEncoder来编码我的训练和测试数据。编码后，我尝试使用该数据训练随机森林分类器。但是，在装配时会出现以下错误。（这里的错误跟踪） 99 model.fit（X_train，y_train） 100 preds = model.predict_proba（X_cv）[:, 1] 101 C：\Python27 ..

发布时间：2017-08-16 22:07:22 python encoding numpy scipy scikit-learn Python

有些人怀疑python中libsvm / scikit-learn库的某些功能

我已经刮了很多这样的ebay标题： Apple iPhone 5白色16GB双核我已经以这种方式手动标记了所有这些 BMCS NA 其中B =品牌（Apple）M =型号（iPhone 5）C =颜色（白色）S =尺寸（大小）NA =未分配（双核）现在我需要使用SVM分类器python中的libsvm库可以了解ebay标题中出现的序 ..

发布时间：2017-05-21 23:06:39 python dictionary scikit-learn libsvm Python

在scikit学习（计算机视觉）中如何处理我自己的数据集？

如何在scikit学习中使用自己的数据集？ Scikit教程总是以加载他的数据集（数字数据集，花数据集）为例。 ..

发布时间：2017-04-02 12:32:31 image dataset machine-learning scikit-learn feature-extraction AI人工智能

如何下载sklearn的数据集？ - 蟒蛇

在NLTK中有一个 nltk.download（）函数来下载NLP套件附带的数据集。在sklearn中，它谈论加载数据集（ http://scikit-learn.org/ stable / datasets / ）并从 http://mldata.org/ 获取数据，但其余部分数据集，说明是从源码下载。我应该从哪里保存我从源头下载的数据？是在我可以从我的python代码调用之前， ..

发布时间：2017-04-02 12:15:15 python machine-learning dataset nlp scikit-learn AI人工智能

按复合条件合并/加入2个DataFrames

我有2个大数据集（大于70K到110K）。我想要相关/比较两者，并根据某些条件/条件找到set2中的哪些项目。我目前的策略是按照常见的排序字段，然后为循环运行嵌套，执行条件如果测试，则会将预定义的词汇与已找到的项目进行聚合，不符合示例：将大熊猫导入为pd list1 = [{'a'：56，'b'：'38'，'c'：'11'，'d'：'10'，'e'：65}， {' ..

发布时间：2017-03-26 01:43:49 python pandas scipy scikit-learn dataframe Python

熊猫数据帧内存python

我想将一个稀疏矩阵（156060x11780）转换为数据帧，但是我收到内存错误这是我的代码 vect = TfidfVectorizer（sublinear_tf = True，analyzer ='word'， stop_words ='english'，tokenizer = tokenize， strip_accents ='ascii'） X = vect.fit_tra ..

发布时间：2017-03-25 23:41:24 python pandas memory dataframe scikit-learn Python

如何将数据分割成3套（列车，验证和测试）？

我有一个熊猫数据框，我希望把它分成3个不同的集合。我知道使用 train_test_split 从 sklearn.cross_validation ，可以将数据分为两组（列车和测试）。但是，我找不到有关将数据分成三组的任何解决方案。最好，我想拥有原始数据的索引。我知道解决方法是使用 train_test_split 两次，以某种方式调整索引。但是有更多的标准/内置方式将数据分成3组而不是 ..

发布时间：2017-03-25 22:14:09 python pandas dataframe machine-learning scikit-learn AI人工智能

Python scikit-learn：无法克隆对象...作为构造函数似乎没有设置参数

我修改了 BernoulliRBM 类的scikit学习使用softmax可见单位的组。在这个过程中，我添加了一个额外的Numpy数组 visible_config 作为类属性，在构造函数中初始化如下： self.visible_config = np.cumsum（np.concatenate（（np.asarray（[0]）， visible_config），axis = 0）） ..

发布时间：2017-01-06 22:31:51 python numpy copy scikit-learn Python

如何使用新数据更新SVM模型

我有两个不同大小的数据集。 1）数据集1是高维度的4500个样本（草图）。 2）数据集2具有低维度1000个样本（实际数据）。我想“两个数据集具有相同的分布” 我想训练一个非线性 SVM sklearn 在第一个数据集上（作为预训练），然后我想更新第二个数据集的一部分上的模型拟合模型）。如何开发sklearn的一种更新。如何更新SVM模型？解决方案在sklea ..

发布时间：2016-12-26 12:13:35 python numpy machine-learning computer-vision scikit-learn AI人工智能

这里有什么问题？意外引用现有实例，而不是创建新实例

我是 R用户，希望使用Python更舒适。我写了一种微型API，使得很容易比较适合相同数据的不同统计模型，以这种方式，我可以预先设置所有的模型超参数，然后迭代不同的模型，以适应他们。这是我想做的事情的精髓：围绕Scikit-learn 分类器 rel =“nofollow”> Pipeline ，又建立在一个Scikit-learn的内置估计器上，例如 RandomForestCl ..

发布时间：2016-11-23 17:59:33 python class python-3.x scikit-learn instance Python

在Windows 7中构建问题时scikit学习

我已经安装了Scikit所有依赖学习。但是，当我运行蟒蛇setup.py构建或蟒蛇的setup.py安装命令我碰到下面的错误。 C：/ MinGW的/ bin中/../ lib中/ GCC / mingw32的/ 4.7.2 /../../../../的mingw32 /斌/劳工处。 EXE：构建\\ TEMP .win32-2.7 \\发布\\ sklearn \\合奏\\ _g ..

发布时间：2016-08-16 13:43:31 python build mingw scikit-learn Python

在绘制轴的曲线，但得到没有任何结果，而试图基于HOG特征进行分类图像

我需要使用级联提升培训在scikit学习一些图片进行分类。我想根据HOG特征进行分类。我的code以下是从 ..

发布时间：2016-06-03 10:33:20 python arrays classification scikit-learn scikit-image Python

在numpy的数组元素的安排

导入numpy的是NP数据= np.array（[0，0，1，1，2，2]， [1，0，0，1，2，2]， [1，0，1，0，0，0]， [1，1，0，0，2,0]]）我怎么可以做以下？在2×2的补丁程序：如果任何元素为2：2放如果任何元素为1：1把如果所有的元素都是0：0放预期 ..

发布时间：2016-06-03 10:32:16 python arrays numpy scipy scikit-learn Python

转换一个一维数组在Python 2D基于类的矩阵

我使用了多级分类，所以为了测试之后评价它，我需要从分类器predictions（ Y_ preD ）反对真正的类值进行比较（ y_test ）。但我有他们两个一维数组，像这样： y_test = [1，1，1，2，1，4,5，3，...等] Y_ preD = [1，1，1，2，3，2，5,0，...等] 在我总共有46类。但为了建立ROC曲线（在这里：的http：// scikit ..

发布时间：2016-06-03 10:29:43 python arrays numpy matrix scikit-learn Python

numpy的hstack - ＆QUOT; ValueError错误：所有输入数组必须具有相同数量的尺寸和QUOT的; - 但他们做的

我试图连接两个numpy的阵列。在一个我对文本的一列运行的TF-IDF之后，一组列/功能。在其他的我有一列/特征是一个整数。所以我在训练和测试数据，在此运行TF-IDF的一列中读取，然后我想补充另一个整数列，因为我认为这将有助于我的学习分类更准确地应该如何行事。不幸的是，我得到错误的标题时，我尝试和运行 hstack 这个单个列添加到我的其他numpy的数组。下面是我的code： #r ..

发布时间：2016-06-01 20:08:00 python arrays numpy pandas scikit-learn Python

ValueError错误：在设置数组元素与序列。而使用SVM scikit学习

我一直在努力scikit学习支持向量机的二元分类问题。我算过的音频文件的功能，并把它们写到CSV文件中。这是一个CSV文件中的每一行的样子： “13_10漫长而曲折的道路”，“[-6.5633095666136669e-16，-1.56E-15，-3.21E-15，-2.20E- 15，-2.52E-15，-3.04E-15，-3.39E-15，-3.47E-15，-3.07E-15，-6.02 ..

发布时间：2016-05-31 20:27:21 arrays python-2.7 csv scikit-learn svm 其他开发

scikit-learn相关内容