categorical-data相关内容

线性模型(lm)当因变量是因子/分类变量时?

我想用 lm 函数进行线性回归.我的因变量是一个称为 AccountStatus : 的因子. 欠款1:0天,欠款2:30-60天,欠款3:60-90天,以及欠款4:90+天.(4) 作为自变量,我有几个数字变量:贷款价值,债务收入和利率. 是否可以对这些变量进行线性回归?我看了一下互联网,发现了一些关于假人的东西,但这些都是关于自变量的. 这不起作用: fit ..
发布时间:2021-04-21 19:46:46 其他开发

不推荐使用OneHotEncoder categorical_features,如何转换特定列

我需要将独立字段从字符串转换为算术符号.我正在使用OneHotEncoder进行转换.我的数据集有许多独立的列,其中一些是: 国家(地区)|年龄--------------------------德国|23西班牙|25德国|24意大利|30 我必须像编码国家列那样 0 |1 |2 |3--------------------------------------1 |0 |0 |230 | ..

熊猫将所有对象列强制转换为类别

我想拥有一种优雅的功能来将所有对象列转换为熊猫数据框架分类 df [x] = df [x] .astype("category")执行类型转换 df.select_dtypes(include = ['object'])将对所有类别列进行子选择.但是,这会导致其他列的丢失/需要手动合并.是否有一种解决方案可以“就地工作"或不需要手动转换? 编辑 我正在寻找与 http:/类似的内 ..
发布时间:2021-04-21 19:42:20 Python

r中的关联矩阵

corrplot允许您在R中绘制相关矩阵的方式 任何想法我如何在R中绘制关联矩阵关联方法使用的是任何用户指定的方法,例如Cramer's V 解决方案 问题的答案在很大程度上取决于您所获得的数据和特定的关联方法.我假设您有一堆标称变量,并想查看它们是否在相关图上使用Cramer的V进行了相关.在这种情况下,可以采用以下方法: 为每一对计算Cramer的V相关系数变量.我使用了 ..
发布时间:2021-04-12 18:35:00 其他开发

处理看不见的分类字符串Spark CountVectorizer

我已经看到 StringIndexer 对于看不见的标签有问题(请参阅这里). 我的问题是: CountVectorizer 是否有相同的限制?如何处理不在词汇表中的字符串? 此外,词汇量受输入数据影响还是根据词汇量参数固定? 最后,从ML的角度来看,假设简单的分类器(例如Logistic回归),不应将看不见的类别编码为零行,因此应将其视为“未知",以便获得某种默认预测? ..
发布时间:2021-04-08 19:54:58 其他开发

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗,面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A,B,C或D.应将其转换为数字1,因此有两个选择.首先是LabelEncoder,其次是get_dummies.当我使用它们时,结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度,因此应该为分类变量赋予更多决 ..
发布时间:2021-02-15 19:03:33 Python

R图形:如何绘制字符序列(纯分类时间序列)

我有一个矩阵,其中每个元素都是纯类别变量“ a”,“ b”,“ c”,“ d”,...。矩阵的每一列都是按时间顺序排列的条目,现在我想绘制 这是原始矩阵: 这里是我想要的图: 红色图是矩阵的第一行,蓝色图是矩阵的第五行。 我已经尝试了一些现有的软件包,但是大多数情况下它们需要我将分类变量转换为数值变量。所以我想知道是否有人可以帮助我。非常感谢! 解决方案 没有您的数 ..
发布时间:2020-09-30 00:31:55 其他开发

使用dplyr和/或cut将连续变量分为几类

我有一个记录价格变化以及其他变量的数据集。我想将价格列突变为分类变量。我知道R中这两个重要的函数似乎是 dplyr 和/或 cut 。 > head(btc_data) 时间btc_price 1 2017-08-27 22:50:00 4,389.6113 2 2017-08-27 22:51:00 4,389.0850 3 2017-08 -27 22:52:00 4,388 ..
发布时间:2020-09-30 00:31:45 其他开发

R ifelse将因子值更改为索引

我在使用R时遇到了一个奇怪的问题,我在使用data.table: 在这里,当我尝试转换那些省份少于500更改为“其他”,输出将顶部计数的省份更改为索引号 df = 500] $ Province df fact_data [,Province:= ifelse(Province%in%df,fact_data $ ..
发布时间:2020-09-30 00:30:39 其他开发

在R中将连续范围更改为分类

我试图将一些连续的整数转换为分类范围,但是发生了一些我不了解的事情。尽管我一心想要得到想要的东西,但我仍然不明白为什么会这样。 变量是0到12之间的一些整数,下面的代码还剩下 10 , 5 + 类别中的11 , 12 。 py2 $ Daily.Whole.Grain [py2 $ Daily.Whole.Grain == 0] py2 $ Daily.Whole.Grain [p ..
发布时间:2020-09-30 00:30:32 其他开发

R中的分类变量-R选择哪一个作为参考?

当R使用分类变量执行回归时,它实际上是伪编码。也就是说,省略了一个级别作为基准或参考,并且回归公式包括了所有其他级别的虚拟变量。但是R选择哪个作为参考,以及我如何影响选择呢? 具有四个级别的示例数据(来自 UCLA的IDRE ): hsb2 ..
发布时间:2020-09-30 00:30:27 其他开发

Stata:当存在因子变量时,将回归系数和标准误差保存在.dta文件中

我想运行多个回归并将其结果存储在DTA文件中,以便以后用于分析。我的约束是: 我无法安装模块(我是在为其他人编写代码,而不是 确认他们已经安装了什么模块) 某些回归变量是因子变量。 每个回归仅因因变量不同,因此我想将其存储在最终变量中跟踪系数/方差对应的回归值的数据集。 我在这里严重丧失了理智。考虑到Stata是统计软件,我觉得这很简单,但是 svmat 确实不合作。目前我正在做 ..
发布时间:2020-09-30 00:30:25 其他开发

编码类别变量,例如“州名称”

我有一个“国家名称”的“分类”列。我不确定必须执行哪种类型的分类编码才能将它们转换为数字类型。 有83个唯一的州名。 标签编码器用于序数分类变量,但是OneHot会增加列数,因为有83个唯一的州名称。 还有其他可以尝试的东西吗? 解决方案 我会使用scikit的OneHotEncoder( https://scikit-learn.org/stable/modules/g ..
发布时间:2020-09-30 00:30:15 Python

分类变量计数的热图

我有一个项目的数据框,每个项目都有多个分类变量列。 ID test1 test2 test3 1 ABA 2 BAC 3 CCC 4 AAB 5 BBB 6 BAC 热图将在x侧的那个测试的列中包含所有因子(在本例中为A,B,C),在y侧具有另一个测试的所有因子,并且热图中的框应为根据具有分类器组合的ID的数量来上色。 例如,在上面的输入中,如果我 ..
发布时间:2020-09-30 00:30:10 其他开发