scikit-learn相关内容
问 题 例如我有一个标签列形如: [A,A,A,B,B,C,C,C,C] 转化为: [0,0,0,1,1,2,2,2,2] pandas和scikit-learn中有简单的实现吗? 另外大家在学习一个新的包时是怎样根据问题找到文档的具体位置的?有啥经验可以交流下吗?谢谢啦! 解决方案 pandas中是非常容易实现的,转换成Categories对象即可。术语叫做因
..
所有这四个功能似乎与我相似。在某些情况下,其中一些可能会产生相同的结果,有些不是。任何帮助将非常感谢! 现在我知道,我认为在内部,因子分解和 LabelEncoder 的工作方式相同,在结果方面没有很大差异。我不知道他们是否会采用大量数据的类似时间。 get_dummies 和 OneHotEncoder 将产生相同的结果,但 OneHotEncoder 只能处理数字,但 get_du
..
我正在读一堆RTF文件到python字符串。 在某些文本上,我收到这个错误: 追溯(最近的最后一次呼叫): 文件“11.08.py”,第47行, X = vectorizer.fit_transform(texts) 文件“C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”,行 716
..
我正在尝试执行一个琐碎数据集的一个热编码。 data = [['a','dog','red'] ['b' cat','green']] 使用Scikit-Learn来预处理这些数据的最好方法是什么? 在第一本能的时候,你会看到Scikit-Learn的 OneHotEncoder 。但是一个热编码器不支持字符串作为特征;它只会离散整数。 所以你会
..
我很喜欢scikit学习。我正在尝试使用预处理。 OneHotEncoder来编码我的训练和测试数据。编码后,我尝试使用该数据训练随机森林分类器。但是,在装配时会出现以下错误。 (这里的错误跟踪) 99 model.fit(X_train,y_train) 100 preds = model.predict_proba(X_cv)[:, 1] 101 C:\Python27
..
我已经刮了很多这样的ebay标题: Apple iPhone 5白色16GB双核 我已经以这种方式手动标记了所有这些 BMCS NA 其中B =品牌(Apple)M =型号(iPhone 5)C =颜色(白色)S =尺寸(大小)NA =未分配(双核) 现在我需要使用SVM分类器python中的libsvm库可以了解ebay标题中出现的序
..
如何在scikit学习中使用自己的数据集? Scikit教程总是以加载他的数据集(数字数据集,花数据集)为例。
..
在NLTK中有一个 nltk.download()函数来下载NLP套件附带的数据集。 在sklearn中,它谈论加载数据集( http://scikit-learn.org/ stable / datasets / )并从 http://mldata.org/ 获取数据,但其余部分数据集,说明是从源码下载。 我应该从哪里保存我从源头下载的数据?是在我可以从我的python代码调用之前,
..
我有2个大数据集(大于70K到110K)。我想要相关/比较两者,并根据某些条件/条件找到set2中的哪些项目。 我目前的策略是按照常见的排序字段,然后为循环运行嵌套,执行条件如果测试,则会将预定义的词汇与已找到的项目进行聚合,不符合 示例: 将大熊猫导入为pd list1 = [{'a':56,'b':'38','c':'11','d':'10','e':65}, {'
..
我想将一个稀疏矩阵(156060x11780)转换为数据帧,但是我收到内存错误这是我的代码 vect = TfidfVectorizer(sublinear_tf = True,analyzer ='word', stop_words ='english',tokenizer = tokenize, strip_accents ='ascii') X = vect.fit_tra
..
我有一个熊猫数据框,我希望把它分成3个不同的集合。我知道使用 train_test_split 从 sklearn.cross_validation ,可以将数据分为两组(列车和测试)。但是,我找不到有关将数据分成三组的任何解决方案。最好,我想拥有原始数据的索引。 我知道解决方法是使用 train_test_split 两次,以某种方式调整索引。但是有更多的标准/内置方式将数据分成3组而不是
..
我修改了 BernoulliRBM 类的scikit学习使用softmax可见单位的组。在这个过程中,我添加了一个额外的Numpy数组 visible_config 作为类属性,在构造函数中初始化如下: self.visible_config = np.cumsum(np.concatenate((np.asarray([0]), visible_config),axis = 0))
..
我有两个不同大小的数据集。 1)数据集1是高维度的4500个样本(草图)。 2)数据集2具有低维度1000个样本(实际数据)。 我想“两个数据集具有相同的分布” 我想训练一个非线性 SVM sklearn 在第一个数据集上(作为预训练),然后我想更新第二个数据集的一部分上的模型拟合模型)。 如何开发sklearn的一种更新。如何更新SVM模型? 解决方案 在sklea
..
我是 R用户,希望使用Python更舒适。我写了一种微型API,使得很容易比较适合相同数据的不同统计模型,以这种方式,我可以预先设置所有的模型超参数,然后迭代不同的模型,以适应他们。 这是我想做的事情的精髓: 围绕Scikit-learn 分类器 rel =“nofollow”> Pipeline ,又建立在一个Scikit-learn的内置估计器上,例如 RandomForestCl
..
我已经安装了Scikit所有依赖学习。但是,当我运行 蟒蛇setup.py构建 或蟒蛇的setup.py安装 命令我碰到下面的错误。 C:/ MinGW的/ bin中/../ lib中/ GCC / mingw32的/ 4.7.2 /../../../../的mingw32 /斌/劳工处。 EXE:构建\\ TEMP .win32-2.7 \\发布\\ sklearn \\合奏\\ _g
..
我需要使用级联提升培训在scikit学习一些图片进行分类。 我想根据HOG特征进行分类。 我的code以下是从
..
导入numpy的是NP数据= np.array([0,0,1,1,2,2], [1,0,0,1,2,2], [1,0,1,0,0,0], [1,1,0,0,2,0]]) 我怎么可以做以下? 在2×2的补丁程序:如果任何元素为2:2放 如果任何元素为1:1把 如果所有的元素都是0:0放 预期
..
我使用了多级分类,所以为了测试之后评价它,我需要从分类器predictions( Y_ preD )反对真正的类值进行比较( y_test )。 但我有他们两个一维数组,像这样: y_test = [1,1,1,2,1,4,5,3,...等] Y_ preD = [1,1,1,2,3,2,5,0,...等] 在我总共有46类。 但为了建立ROC曲线(在这里:的http:// scikit
..
我试图连接两个numpy的阵列。在一个我对文本的一列运行的TF-IDF之后,一组列/功能。在其他的我有一列/特征是一个整数。所以我在训练和测试数据,在此运行TF-IDF的一列中读取,然后我想补充另一个整数列,因为我认为这将有助于我的学习分类更准确地应该如何行事。 不幸的是,我得到错误的标题时,我尝试和运行 hstack 这个单个列添加到我的其他numpy的数组。 下面是我的code: #r
..
我一直在努力scikit学习支持向量机的二元分类问题。我算过的音频文件的功能,并把它们写到CSV文件中。这是一个CSV文件中的每一行的样子: “13_10漫长而曲折的道路”,“[-6.5633095666136669e-16,-1.56E-15,-3.21E-15,-2.20E- 15,-2.52E-15,-3.04E-15,-3.39E-15,-3.47E-15,-3.07E-15,-6.02
..