scikit-learn相关内容

python - pandas或者sklearn中如何将字符形式的标签数字化

问 题 例如我有一个标签列形如: [A,A,A,B,B,C,C,C,C] 转化为: [0,0,0,1,1,2,2,2,2] pandas和scikit-learn中有简单的实现吗? 另外大家在学习一个新的包时是怎样根据问题找到文档的具体位置的?有啥经验可以交流下吗?谢谢啦! 解决方案 pandas中是非常容易实现的,转换成Categories对象即可。术语叫做因 ..
发布时间:2017-09-06 04:06:50 Python

想知道pd.factorize,pd.get_dummies,sklearn.preprocessing.LableEncoder和OneHotEncoder中的diff

所有这四个功能似乎与我相似。在某些情况下,其中一些可能会产生相同的结果,有些不是。任何帮助将非常感谢! 现在我知道,我认为在内部,因子分解和 LabelEncoder 的工作方式相同,在结果方面没有很大差异。我不知道他们是否会采用大量数据的类似时间。 get_dummies 和 OneHotEncoder 将产生相同的结果,但 OneHotEncoder 只能处理数字,但 get_du ..
发布时间:2017-08-16 23:55:34 AI人工智能

scikit-learn:字符串分类功能的一个热编码

我正在尝试执行一个琐碎数据集的一个热编码。 data = [['a','dog','red'] ['b' cat','green']] 使用Scikit-Learn来预处理这些数据的最好方法是什么? 在第一本能的时候,你会看到Scikit-Learn的 OneHotEncoder 。但是一个热编码器不支持字符串作为特征;它只会离散整数。 所以你会 ..
发布时间:2017-08-16 22:26:16 Python

Sklearn - 不能在随机林分类器中使用编码数据

我很喜欢scikit学习。我正在尝试使用预处理。 OneHotEncoder来编码我的训练和测试数据。编码后,我尝试使用该数据训练随机森林分类器。但是,在装配时会出现以下错误。 (这里的错误跟踪) 99 model.fit(X_train,y_train) 100 preds = model.predict_proba(X_cv)[:, 1] 101 C:\Python27 ..
发布时间:2017-08-16 22:07:22 Python

如何下载sklearn的数据集? - 蟒蛇

在NLTK中有一个 nltk.download()函数来下载NLP套件附带的数据集。 在sklearn中,它谈论加载数据集( http://scikit-learn.org/ stable / datasets / )并从 http://mldata.org/ 获取数据,但其余部分数据集,说明是从源码下载。 我应该从哪里保存我从源头下载的数据?是在我可以从我的python代码调用之前, ..
发布时间:2017-04-02 12:15:15 AI人工智能

按复合条件合并/加入2个DataFrames

我有2个大数据集(大于70K到110K)。我想要相关/比较两者,并根据某些条件/条件找到set2中的哪些项目。 我目前的策略是按照常见的排序字段,然后为循环运行嵌套,执行条件如果测试,则会将预定义的词汇与已找到的项目进行聚合,不符合 示例: 将大熊猫导入为pd list1 = [{'a':56,'b':'38','c':'11','d':'10','e':65}, {' ..
发布时间:2017-03-26 01:43:49 Python

熊猫数据帧内存python

我想将一个稀疏矩阵(156060x11780)转换为数据帧,但是我收到内存错误这是我的代码 vect = TfidfVectorizer(sublinear_tf = True,analyzer ='word', stop_words ='english',tokenizer = tokenize, strip_accents ='ascii') X = vect.fit_tra ..
发布时间:2017-03-25 23:41:24 Python

如何将数据分割成3套(列车,验证和测试)?

我有一个熊猫数据框,我希望把它分成3个不同的集合。我知道使用 train_test_split 从 sklearn.cross_validation ,可以将数据分为两组(列车和测试)。但是,我找不到有关将数据分成三组的任何解决方案。最好,我想拥有原始数据的索引。 我知道解决方法是使用 train_test_split 两次,以某种方式调整索引。但是有更多的标准/内置方式将数据分成3组而不是 ..
发布时间:2017-03-25 22:14:09 AI人工智能

如何使用新数据更新SVM模型

我有两个不同大小的数据集。 1)数据集1是高维度的4500个样本(草图)。 2)数据集2具有低维度1000个样本(实际数据)。 我想“两个数据集具有相同的分布” 我想训练一个非线性 SVM sklearn 在第一个数据集上(作为预训练),然后我想更新第二个数据集的一部分上的模型拟合模型)。 如何开发sklearn的一种更新。如何更新SVM模型? 解决方案 在sklea ..

这里有什么问题?意外引用现有实例,而不是创建新实例

我是 R用户,希望使用Python更舒适。我写了一种微型API,使得很容易比较适合相同数据的不同统计模型,以这种方式,我可以预先设置所有的模型超参数,然后迭代不同的模型,以适应他们。 这是我想做的事情的精髓: 围绕Scikit-learn 分类器 rel =“nofollow”> Pipeline ,又建立在一个Scikit-learn的内置估计器上,例如 RandomForestCl ..
发布时间:2016-11-23 17:59:33 Python

在Windows 7中构建问题时scikit学习

我已经安装了Scikit所有依赖学习。但是,当我运行 蟒蛇setup.py构建 或蟒蛇的setup.py安装 命令我碰到下面的错误。 C:/ MinGW的/ bin中/../ lib中/ GCC / mingw32的/ 4.7.2 /../../../../的mingw32 /斌/劳工处。 EXE:构建\\ TEMP .win32-2.7 \\发布\\ sklearn \\合奏\\ _g ..
发布时间:2016-08-16 13:43:31 Python

在numpy的数组元素的安排

导入numpy的是NP数据= np.array([0,0,1,1,2,2], [1,0,0,1,2,2], [1,0,1,0,0,0], [1,1,0,0,2,0]]) 我怎么可以做以下? 在2×2的补丁程序:如果任何元素为2:2放 如果任何元素为1:1把 如果所有的元素都是0:0放 预期 ..
发布时间:2016-06-03 10:32:16 Python

转换一个一维数组在Python 2D基于类的矩阵

我使用了多级分类,所以为了测试之后评价它,我需要从分类器predictions( Y_ preD )反对真正的类值进行比较( y_test )。 但我有他们两个一维数组,像这样: y_test = [1,1,1,2,1,4,5,3,...等] Y_ preD = [1,1,1,2,3,2,5,0,...等] 在我总共有46类。 但为了建立ROC曲线(在这里:的http:// scikit ..
发布时间:2016-06-03 10:29:43 Python

numpy的hstack - " ValueError错误:所有输入数组必须具有相同数量的尺寸和QUOT的; - 但他们做的

我试图连接两个numpy的阵列。在一个我对文本的一列运行的TF-IDF之后,一组列/功能。在其他的我有一列/特征是一个整数。所以我在训练和测试数据,在此运行TF-IDF的一列中读取,然后我想补充另一个整数列,因为我认为这将有助于我的学习分类更准确地应该如何行事。 不幸的是,我得到错误的标题时,我尝试和运行 hstack 这个单个列添加到我的其他numpy的数组。 下面是我的code: #r ..
发布时间:2016-06-01 20:08:00 Python

ValueError错误:在设置数组元素与序列。而使用SVM scikit学习

我一直在努力scikit学习支持向量机的二元分类问题。我算过的音频文件的功能,并把它们写到CSV文件中。这是一个CSV文件中的每一行的样子: “13_10漫长而曲折的道路”,“[-6.5633095666136669e-16,-1.56E-15,-3.21E-15,-2.20E- 15,-2.52E-15,-3.04E-15,-3.39E-15,-3.47E-15,-3.07E-15,-6.02 ..
发布时间:2016-05-31 20:27:21 其他开发