categorical-data 第6页 - IT屋-程序员软件开发技术分享社区

如何在R中使用大数据对多个变量进行热编码?

我目前有一个包含260,000行和50列的数据框，其中3列为数字，其余为分类.我想对类别列进行热编码，以执行PCA并使用回归来预测类.如何在R中完成以下示例? Example: V1 V2 V3 V4 V5 .... VN-1 VN to V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on 解决方案您可以使用model.matrix或spar ..

发布时间：2020-09-20 19:34:30 r categorical-data one-hot-encoding bigdata 其他开发

如何计算分配给类别中个人的变量的平均值?

我有一个大数据集，可以这样表示: plot 1 2 3 3 3 4 4 5 5 5 5 6 7 fate S M S S M S S S M S S M M 其中地块是一个地点，而命运是“生存"或“死亡"(植物生存或死亡.)植物的地块编号与其下的命运相对应.因此，在地块5中有4种植物.其中3个幸存，1个死亡. 我想找出一种方法，使R计算所有这些情节在每个地块中幸存的个体的比例.事实 ..

发布时间：2020-09-15 03:23:24 r plot average categorical-data 其他开发

在Spark StringIndexer中处理NULL值

我有一个带有一些分类字符串列的数据集，我想用双精度类型来表示它们.我使用StringIndexer进行此转换，并且可以使用，但是当我在另一个具有NULL值的数据集中尝试使用它时，出现了java.lang.NullPointerException错误，并且不起作用. 为了更好地理解，这是我的代码: for(col ..

发布时间：2020-09-04 08:32:26 scala apache-spark categorical-data apache-spark-ml 其他开发

我有一个具有相应categoricalFeaturesInfo的要素集:Map [Int，Int].但是，对于我的一生，我无法弄清楚应该如何使DecisionTree类正常工作.它不接受任何内容，但接受LabeledPoint作为数据.但是，LabeledPoint需要(double，vector)，其中vector需要double. val LP = featureSet.map(x => ..

发布时间：2020-09-04 06:49:56 scala apache-spark tree apache-spark-mllib categorical-data 其他开发

如何使用spark-ml处理分类功能?

如何使用 spark-ml 而不是 spark-mllib来处理分类数据? 认为文档不是很清楚，看来分类器例如RandomForestClassifier，LogisticRegression具有一个featuresCol参数(用于指定DataFrame中的要素列的名称)和一个labelCol参数(用于指定DataFrame中带有标签的类的列的名称) c5>. 很明显，我想在预测中使用 ..

发布时间：2020-09-03 23:06:07 apache-spark categorical-data apache-spark-ml apache-spark-mllib 其他开发

自动使用LRT评估整个因素变量的显着性

对于包含一个或多个因子变量的多变量回归模型，R的输出不会自动包括模型中整个因子变量的重要性的似然比检验(LRT).例如: fake = data.frame( x1=rnorm(100), x2=sample(LETTERS[1:4], size=100, replace=TRUE), y=rnorm(100) ) head(fake) x1 x2 ..

发布时间：2020-09-02 01:44:27 r regression anova categorical-data 其他开发

Tensorflow如何在一列内使用多个输入来处理分类特征?

例如，我有以下csv格式的数据: csv col0 col1 col2 col3 1 A E|A|C 3 0 B D|F 2 2 C | 2 用逗号分隔的每一列代表一个功能.通常，一个功能是单项功能(例如col0, col1, col3)，但在这种情况下，col2的功能具有多个输入(由|分隔). 我确定tenso ..

发布时间：2020-08-06 02:10:16 python tensorflow sparse-matrix categorical-data Python

R的群集程序包中的daisy()的Python等效项

我有一个包含分类(标称和序数)和数字属性的数据集.我想使用这些混合属性来计算我的观察结果中的(不相似度)矩阵.使用 daisy()函数在R中的群集程序包中，我可以轻松获得如下所示的相异矩阵: if(!require("cluster")) { install.packages("cluster"); require("cluster") } data(flower) as.matrix(d ..

发布时间：2020-07-31 04:43:22 python r similarity categorical-data r-daisy Python

R:随机抽样各种类别的观测值

我以前从我的数据帧中随机抽取了一个邮政编码样本，然后意识到我并没有在所有更高级别的统计单位中进行抽样.我有大约一百万个邮政编码和7000个中间输出统计单位.我希望样本中每个统计单位的邮政编码数量大致相同. 如何从每个较高级别的统计单位中随机抽取35个邮政编码? 我以前使用以下代码随机采样250,000个邮政编码: total.sample ..

发布时间：2020-07-31 04:36:15 r sample random-sample quota categorical-data 其他开发

自动比较小鼠glm.mids的嵌套模型

我有一个来自R的mice包的多重插补模型，其中有很多因子变量.例如: library(mice) library(Hmisc) # turn all the variables into factors fake = nhanes fake$age = as.factor(nhanes$age) fake$bmi = cut2(nhanes$bmi, g=3) fake$chl = cu ..

发布时间：2020-07-06 02:08:16 r anova categorical-data r-mice 其他开发

Pandas分类数据类型的行为不符合预期

我下面有Pandas(0.15.2版)数据框.我想在df创建后将code列设置为Categorical类型的有序变量，如下所示. import pandas as pd df = pd.DataFrame({'id' : range(1,9), 'code' : ['one', 'one', 'two', 'three', ..

发布时间：2020-07-02 04:23:46 python pandas categorical-data ordinal Python

GBM多项式分布，如何使用predict()获取预测类?

我正在使用R中gbm包中的多项式分布.当我使用predict函数时，会得到一系列值: 5.086328 -4.738346 -8.492738 -5.980720 -4.351102 -4.738044 -3.220387 -4.732654 但是我想获得每个班级发生的概率.我如何找回概率?谢谢. 解决方案看看?predict.gbm，您将看到该函数有一个“类型"参数.试用pr ..

发布时间：2020-06-16 18:33:24 r prediction categorical-data multinomial gbm 其他开发

如何进行回归以报告所有因素变量?

我想运行一个regression来计算factor变量的所有级别的估计值.默认情况下，Stata忽略一个虚拟对象作为base级别. 当我使用allbaselevels选项时，它仅显示base级别的零值: regress adjusted_volume i.rounded_time, allbaselevels 当常量删除后，SAS显示所有类别变量的估计值. 我如何在Stata ..

发布时间：2020-06-13 18:57:55 statistics regression stata categorical-data economics 其他开发

R coxph（）警告：Loglik在变量前收敛

我在使用coxph（）时遇到了一些麻烦。我有两个分类变量：“性别”和“可能的原因”，我想用作预测变量。性别只是典型的男性/女性，但可能的原因有5种选择。我不知道警告消息是什么问题。为什么置信区间是从0到Inf，而p值这么高？以下是代码和输出： > my_coxph ..

发布时间：2020-06-08 18:54:55 r survival-analysis categorical-data cox-regression 其他开发

马赛克图，每个框中带有标签，显示所有观测值的名称和百分比

我想创建一个镶嵌图(R包VCD，请参见例如 http://cran.r-project.org/web/packages/vcd/vignettes/residual-shadings.pdf )，并在图中添加标签.标签应显示各种因素的组合或某些自定义标签，以及在此类别组合中总观测值的百分比(请参见例如 library(vcd) library(MASS) data("Titanic") mos ..

发布时间：2020-05-28 03:24:57 r plot categorical-data 其他开发

在熊猫交叉表中，如何计算加权平均值?以及如何添加行和列的总计?

我有一个带有两个分类变量(在我的示例中为city和colour)的pandas数据框，一个带有百分比的列，一个带有权重的列. 我想做一个城市和颜色的交叉表，显示两者的每种组合的perc加权平均值. 我设法用下面的代码做到这一点，在这里我首先创建一个权重为x perc的列，然后创建一个权重为(weights x perc)之和的交叉表，再创建一个权重之和的交叉表，最后将其除以第一到第二. ..

发布时间：2020-05-24 04:20:58 python pandas crosstab categorical-data Python

熊猫订购了有关考试成绩'D'，...，'A +'的分类数据

我在熊猫中有以下数据，我感到惊讶的是输出为:D + A 我期待着A + D 有人可以解释吗 df = pd.DataFrame(['A+','A','A-','B+','B','B-','C+','C','C-','D+','D'], index = ['excellent','excellent','excellent','good','go ..

发布时间：2020-05-24 03:47:50 pandas sorting categorical-data Python

将Pandas DataFrame列映射到字典

我有一个数据框包含高基数(许多唯一值)的分类变量的情况.我想将该变量重新编码为一组值(最常见的值)，然后将所有其他值替换为全部类别(“其他").举一个简单的例子: 以下是两个应保持不变的值: top_values = ['apple', 'orange'] 我根据以下数据帧列中的频率来建立它们: {'fruits': {0: 'apple', 1: 'apple', 2: ' ..

发布时间：2020-05-24 03:31:22 python python-3.x pandas series categorical-data Python

在Pandas中将文本转换为int64类别

我在data['artist']中有一些歌手的名字，我想通过以下方式将其转换为分类列: x = data['artist'].astype('category').cat.codes x.dtype 返回: dtype('int32') 我得到的负数表明存在某种溢出情况.因此，我想改用np.int64，但找不到有关如何完成此操作的文档. x = data['artist ..

发布时间：2020-05-24 02:52:04 python pandas categorical-data Python

熊猫cut():如何转换nans?还是将输出转换为非分类?

我在带有nans的数据框列上使用pandas.cut().我需要在pandas.cut()的输出上运行groupby，因此我需要将nans转换为其他内容(在输出中，而不是在输入数据中)，否则groupby将愚蠢而令人发指地忽略它们. 我知道cut()现在可以输出分类数据，但是我找不到找到将分类添加到输出中的方法.我尝试过add_categories()，它运行时没有警告也没有错误，但是由于没 ..

发布时间：2020-05-24 02:41:44 python pandas categorical-data Python

categorical-data相关内容