categorical-data相关内容
我目前有一个包含260,000行和50列的数据框,其中3列为数字,其余为分类.我想对类别列进行热编码,以执行PCA并使用回归来预测类.如何在R中完成以下示例? Example: V1 V2 V3 V4 V5 .... VN-1 VN to V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on 解决方案 您可以使用model.matrix或spar
..
我有一个大数据集,可以这样表示: plot 1 2 3 3 3 4 4 5 5 5 5 6 7 fate S M S S M S S S M S S M M 其中地块是一个地点,而命运是“生存"或“死亡"(植物生存或死亡.)植物的地块编号与其下的命运相对应.因此,在地块5中有4种植物.其中3个幸存,1个死亡. 我想找出一种方法,使R计算所有这些情节在每个地块中幸存的个体的比例.事实
..
我有一个带有一些分类字符串列的数据集,我想用双精度类型来表示它们.我使用StringIndexer进行此转换,并且可以使用,但是当我在另一个具有NULL值的数据集中尝试使用它时,出现了java.lang.NullPointerException错误,并且不起作用. 为了更好地理解,这是我的代码: for(col
..
我有一个具有相应categoricalFeaturesInfo的要素集:Map [Int,Int].但是,对于我的一生,我无法弄清楚应该如何使DecisionTree类正常工作.它不接受任何内容,但接受LabeledPoint作为数据.但是,LabeledPoint需要(double,vector),其中vector需要double. val LP = featureSet.map(x =>
..
如何使用 spark-ml 而不是 spark-mllib来处理分类数据? 认为文档不是很清楚,看来分类器例如RandomForestClassifier,LogisticRegression具有一个featuresCol参数(用于指定DataFrame中的要素列的名称)和一个labelCol参数(用于指定DataFrame中带有标签的类的列的名称) c5>. 很明显,我想在预测中使用
..
对于包含一个或多个因子变量的多变量回归模型,R的输出不会自动包括模型中整个因子变量的重要性的似然比检验(LRT).例如: fake = data.frame( x1=rnorm(100), x2=sample(LETTERS[1:4], size=100, replace=TRUE), y=rnorm(100) ) head(fake) x1 x2
..
例如,我有以下csv格式的数据: csv col0 col1 col2 col3 1 A E|A|C 3 0 B D|F 2 2 C | 2 用逗号分隔的每一列代表一个功能.通常,一个功能是单项功能(例如col0, col1, col3),但在这种情况下,col2的功能具有多个输入(由|分隔). 我确定tenso
..
我有一个包含分类(标称和序数)和数字属性的数据集.我想使用这些混合属性来计算我的观察结果中的(不相似度)矩阵.使用 daisy()函数在R中的群集程序包中,我可以轻松获得如下所示的相异矩阵: if(!require("cluster")) { install.packages("cluster"); require("cluster") } data(flower) as.matrix(d
..
我以前从我的数据帧中随机抽取了一个邮政编码样本,然后意识到我并没有在所有更高级别的统计单位中进行抽样.我有大约一百万个邮政编码和7000个中间输出统计单位.我希望样本中每个统计单位的邮政编码数量大致相同. 如何从每个较高级别的统计单位中随机抽取35个邮政编码? 我以前使用以下代码随机采样250,000个邮政编码: total.sample
..
我有一个来自R的mice包的多重插补模型,其中有很多因子变量.例如: library(mice) library(Hmisc) # turn all the variables into factors fake = nhanes fake$age = as.factor(nhanes$age) fake$bmi = cut2(nhanes$bmi, g=3) fake$chl = cu
..
我下面有Pandas(0.15.2版)数据框.我想在df创建后将code列设置为Categorical类型的有序变量,如下所示. import pandas as pd df = pd.DataFrame({'id' : range(1,9), 'code' : ['one', 'one', 'two', 'three',
..
我正在使用R中gbm包中的多项式分布.当我使用predict函数时,会得到一系列值: 5.086328 -4.738346 -8.492738 -5.980720 -4.351102 -4.738044 -3.220387 -4.732654 但是我想获得每个班级发生的概率.我如何找回概率?谢谢. 解决方案 看看?predict.gbm,您将看到该函数有一个“类型"参数.试用pr
..
我想运行一个regression来计算factor变量的所有级别的估计值.默认情况下,Stata忽略一个虚拟对象作为base级别. 当我使用allbaselevels选项时,它仅显示base级别的零值: regress adjusted_volume i.rounded_time, allbaselevels 当常量删除后,SAS显示所有类别变量的估计值. 我如何在Stata
..
我在使用coxph()时遇到了一些麻烦。 我有两个分类变量:“性别”和“可能的原因”,我想用作预测变量。性别只是典型的男性/女性,但可能的原因有5种选择。 我不知道警告消息是什么问题。为什么置信区间是从0到Inf,而p值这么高? 以下是代码和输出: > my_coxph
..
我想创建一个镶嵌图(R包VCD,请参见例如 http://cran.r-project.org/web/packages/vcd/vignettes/residual-shadings.pdf ),并在图中添加标签.标签应显示各种因素的组合或某些自定义标签,以及在此类别组合中总观测值的百分比(请参见例如 library(vcd) library(MASS) data("Titanic") mos
..
我有一个带有两个分类变量(在我的示例中为city和colour)的pandas数据框,一个带有百分比的列,一个带有权重的列. 我想做一个城市和颜色的交叉表,显示两者的每种组合的perc加权平均值. 我设法用下面的代码做到这一点,在这里我首先创建一个权重为x perc的列,然后创建一个权重为(weights x perc)之和的交叉表,再创建一个权重之和的交叉表,最后将其除以第一到第二.
..
我在熊猫中有以下数据,我感到惊讶的是输出为:D + A 我期待着A + D 有人可以解释吗 df = pd.DataFrame(['A+','A','A-','B+','B','B-','C+','C','C-','D+','D'], index = ['excellent','excellent','excellent','good','go
..
我有一个数据框包含高基数(许多唯一值)的分类变量的情况.我想将该变量重新编码为一组值(最常见的值),然后将所有其他值替换为全部类别(“其他").举一个简单的例子: 以下是两个应保持不变的值: top_values = ['apple', 'orange'] 我根据以下数据帧列中的频率来建立它们: {'fruits': {0: 'apple', 1: 'apple', 2: '
..
我在data['artist']中有一些歌手的名字,我想通过以下方式将其转换为分类列: x = data['artist'].astype('category').cat.codes x.dtype 返回: dtype('int32') 我得到的负数表明存在某种溢出情况.因此,我想改用np.int64,但找不到有关如何完成此操作的文档. x = data['artist
..
我在带有nans的数据框列上使用pandas.cut().我需要在pandas.cut()的输出上运行groupby,因此我需要将nans转换为其他内容(在输出中,而不是在输入数据中),否则groupby将愚蠢而令人发指地忽略它们. 我知道cut()现在可以输出分类数据,但是我找不到找到将分类添加到输出中的方法.我尝试过add_categories(),它运行时没有警告也没有错误,但是由于没
..