categorical-data 第3页 - IT屋-程序员软件开发技术分享社区

线性模型(lm)当因变量是因子/分类变量时?

我想用 lm 函数进行线性回归.我的因变量是一个称为 AccountStatus : 的因子. 欠款1:0天，欠款2:30-60天，欠款3:60-90天，以及欠款4:90+天.(4) 作为自变量，我有几个数字变量:贷款价值，债务收入和利率. 是否可以对这些变量进行线性回归?我看了一下互联网，发现了一些关于假人的东西，但这些都是关于自变量的. 这不起作用: fit ..

发布时间：2021-04-21 19:46:46 r lm categorical-data r-factor 其他开发

不推荐使用OneHotEncoder categorical_features，如何转换特定列

我需要将独立字段从字符串转换为算术符号.我正在使用OneHotEncoder进行转换.我的数据集有许多独立的列，其中一些是: 国家(地区)|年龄--------------------------德国|23西班牙|25德国|24意大利|30 我必须像编码国家列那样 0 |1 |2 |3--------------------------------------1 |0 |0 |230 | ..

发布时间：2021-04-21 19:46:43 python machine-learning categorical-data one-hot-encoding AI人工智能

熊猫将所有对象列强制转换为类别

我想拥有一种优雅的功能来将所有对象列转换为熊猫数据框架分类 df [x] = df [x] .astype("category")执行类型转换 df.select_dtypes(include = ['object'])将对所有类别列进行子选择.但是，这会导致其他列的丢失/需要手动合并.是否有一种解决方案可以“就地工作"或不需要手动转换? 编辑我正在寻找与 http:/类似的内 ..

发布时间：2021-04-21 19:42:20 python pandas casting categorical-data Python

如何旋转Pandas DataFrame列以创建二进制“值表"?

我有以下熊猫数据框: 将pandas导入为pddf = pd.read_csv("filename.csv")dfA B C D E0 a 0.469112 -0.282863 -1.509059猫1 c -1.135632 1.212112 -0.173215狗2 e 0.119209 -1.044236 -0.861849狗3 f -2.104569 -0.494929 1.071804鸟4 ..

发布时间：2021-04-15 19:32:02 python pandas dataframe binary categorical-data Python

r中的关联矩阵

corrplot允许您在R中绘制相关矩阵的方式任何想法我如何在R中绘制关联矩阵关联方法使用的是任何用户指定的方法，例如Cramer's V 解决方案问题的答案在很大程度上取决于您所获得的数据和特定的关联方法.我假设您有一堆标称变量，并想查看它们是否在相关图上使用Cramer的V进行了相关.在这种情况下，可以采用以下方法: 为每一对计算Cramer的V相关系数变量.我使用了 ..

发布时间：2021-04-12 18:35:00 r associations correlation categorical-data r-corrplot 其他开发

处理看不见的分类字符串Spark CountVectorizer

我已经看到 StringIndexer 对于看不见的标签有问题(请参阅这里). 我的问题是: CountVectorizer 是否有相同的限制?如何处理不在词汇表中的字符串? 此外，词汇量受输入数据影响还是根据词汇量参数固定? 最后，从ML的角度来看，假设简单的分类器(例如Logistic回归)，不应将看不见的类别编码为零行，因此应将其视为“未知"，以便获得某种默认预测? ..

发布时间：2021-04-08 19:54:58 apache-spark pyspark categorical-data 其他开发

混合数据时如何用K-means聚类方法处理分类数据?

我正在使用k均值方法根据建筑物的能耗，面积(以平方米为单位)和所在位置的气候区对它们进行聚类.气候区是一个类别变量.值可以是A，B，C或D.应将其转换为数字1，因此有两个选择.首先是LabelEncoder，其次是get_dummies.当我使用它们时，结果是完全不同的.我想问哪种方法更正确使用? 我猜是因为"get_dummies"为每个分类变量创建了更多维度，因此应该为分类变量赋予更多决 ..

发布时间：2021-02-15 19:03:33 python scikit-learn cluster-analysis k-means categorical-data Python

回归使输入变量之一产生误差。“对比度只能应用于具有2个或多个级别的因数”。

我正在R中使用大量输入变量运行logit回归。 newlogit ..

发布时间：2020-09-30 00:31:59 r regression categorical-data 其他开发

R图形：如何绘制字符序列（纯分类时间序列）

我有一个矩阵，其中每个元素都是纯类别变量“ a”，“ b”，“ c”，“ d”，...。矩阵的每一列都是按时间顺序排列的条目，现在我想绘制这是原始矩阵：这里是我想要的图：红色图是矩阵的第一行，蓝色图是矩阵的第五行。我已经尝试了一些现有的软件包，但是大多数情况下它们需要我将分类变量转换为数值变量。所以我想知道是否有人可以帮助我。非常感谢！解决方案没有您的数 ..

发布时间：2020-09-30 00:31:55 r plot time-series categorical-data 其他开发

将数字变量和分类变量归类到R中的适当范围

Df ..

发布时间：2020-09-30 00:31:50 r variables categorical-data 其他开发

Matplotlib无法绘制分类值

这是我的示例： import matplotlib.pyplot as plt test_list = ['a'，' b'，'b'，'c'] plt.hist（test_list） plt.show（）它会生成以下错误消息： TypeError Traceback（最近一次通话）在 ..

发布时间：2020-09-30 00:31:48 matplotlib categorical-data 其他开发

使用dplyr和/或cut将连续变量分为几类

我有一个记录价格变化以及其他变量的数据集。我想将价格列突变为分类变量。我知道R中这两个重要的函数似乎是 dplyr 和/或 cut 。 > head（btc_data）时间btc_price 1 2017-08-27 22:50:00 4,389.6113 2 2017-08-27 22:51:00 4,389.0850 3 2017-08 -27 22:52:00 4,388 ..

发布时间：2020-09-30 00:31:45 r dplyr cut categorical-data 其他开发

R ifelse将因子值更改为索引

我在使用R时遇到了一个奇怪的问题，我在使用data.table：在这里，当我尝试转换那些省份少于500更改为“其他”，输出将顶部计数的省份更改为索引号 df = 500] $ Province df fact_data [，Province：= ifelse（Province％in％df，fact_data $ ..

发布时间：2020-09-30 00:30:39 r data.table categorical-data 其他开发

如何生成具有预测概率的随机数据集？

我正在努力生成具有预测的多项式逻辑回归概率的随机数据集。让我们举个例子。我将使用 nnet 软件包进行多项逻辑回归。我还将使用 rattle.data 包中的葡萄酒数据集。 library（“ nnet”） library（“ rattle.data”） data（wine） multinom.fit ..

发布时间：2020-09-30 00:30:36 r simulation prediction categorical-data 其他开发

在R中将连续范围更改为分类

我试图将一些连续的整数转换为分类范围，但是发生了一些我不了解的事情。尽管我一心想要得到想要的东西，但我仍然不明白为什么会这样。变量是0到12之间的一些整数，下面的代码还剩下 10 ， 5 + 类别中的11 ， 12 。 py2 $ Daily.Whole.Grain [py2 $ Daily.Whole.Grain == 0] py2 $ Daily.Whole.Grain [p ..

发布时间：2020-09-30 00:30:32 r continuous categorical-data 其他开发

R中的分类变量-R选择哪一个作为参考？

当R使用分类变量执行回归时，它实际上是伪编码。也就是说，省略了一个级别作为基准或参考，并且回归公式包括了所有其他级别的虚拟变量。但是R选择哪个作为参考，以及我如何影响选择呢？具有四个级别的示例数据（来自 UCLA的IDRE ）： hsb2 ..

发布时间：2020-09-30 00:30:27 r regression categorical-data 其他开发

Stata：当存在因子变量时，将回归系数和标准误差保存在.dta文件中

我想运行多个回归并将其结果存储在DTA文件中，以便以后用于分析。我的约束是：我无法安装模块（我是在为其他人编写代码，而不是确认他们已经安装了什么模块）某些回归变量是因子变量。每个回归仅因因变量不同，因此我想将其存储在最终变量中跟踪系数/方差对应的回归值的数据集。我在这里严重丧失了理智。考虑到Stata是统计软件，我觉得这很简单，但是 svmat 确实不合作。目前我正在做 ..

发布时间：2020-09-30 00:30:25 regression stata categorical-data 其他开发

R中基于行值和类别的条件计算

我有这个数据帧： df 如下所示： ab reg c 1 a1 x1 A 1 2 a2 x2 A 2 3 a3 x3 A 3 4 a4合计A 4 5 b1 x1 A 5 6 b2 x2 A 6 7 b3 x3 A 7 8 b4合计A 8 9 a1 x1 B 9 10 a2 x2 B 10 11 a3 x3 B 11 ..

发布时间：2020-09-30 00:30:17 r data-manipulation categorical-data calculation 其他开发

编码类别变量，例如“州名称”

我有一个“国家名称”的“分类”列。我不确定必须执行哪种类型的分类编码才能将它们转换为数字类型。有83个唯一的州名。标签编码器用于序数分类变量，但是OneHot会增加列数，因为有83个唯一的州名称。还有其他可以尝试的东西吗？解决方案我会使用scikit的OneHotEncoder（ https://scikit-learn.org/stable/modules/g ..

发布时间：2020-09-30 00:30:15 python categorical-data one-hot-encoding label-encoding Python

分类变量计数的热图

我有一个项目的数据框，每个项目都有多个分类变量列。 ID test1 test2 test3 1 ABA 2 BAC 3 CCC 4 AAB 5 BBB 6 BAC 热图将在x侧的那个测试的列中包含所有因子（在本例中为A，B，C），在y侧具有另一个测试的所有因子，并且热图中的框应为根据具有分类器组合的ID的数量来上色。例如，在上面的输入中，如果我 ..

发布时间：2020-09-30 00:30:10 r ggplot2 heatmap categorical-data pheatmap 其他开发

categorical-data相关内容