categorical-data相关内容

在R中生成具有选定关联度的两个类别变量

我想使用R生成两个类别变量(例如,眼睛颜色和头发颜色),在这里可以指定这两个变量的关联程度。对我而言,哪个颜色的眼睛颜色与哪个头发的颜色颜色相关并不重要,但是仅需要能够指定整体关联性(例如通过指定比值比)即可。另外,我知道有一些方法可以使用例如 mvtnorm 包对两个正态分布的连续变量执行此操作,因此我可以采用该路线,然后选择切点作为在事后对变量进行分类,但是如果可以避免的话,我不想那样做。任何 ..
发布时间:2020-09-30 00:30:07 其他开发

从现有变量生成新的二项式变量

假设我有以下数据: Var1 =(1,1,0,1,0,1,0 ,1,1,0,1,1,0,0,0,1,0) Var2 =(1,0,0,1,1,0,0,1,0,1,0, 1,1,1,0,1,1) Var3 =(0,0,0,1,1,1,0,0,1,0,1,0,0,0,1,0 ,0) 使用 if / else 语法,我需要创建新的 Var4 ,以便 如果var1 = ..
发布时间:2020-09-30 00:30:05 其他开发

每个示例对具有多个类别的分类特征进行编码-sklearn

我正在处理包含流派作为特征的电影数据集。数据集中的示例可能同时属于多个流派。因此,它们包含一个类型标签列表。 数据看起来像这样- movieId流派 0 1 [冒险,动画,儿童,喜剧,幻想] 1 2 [冒险,儿童,喜剧,幻想] 2 3 [喜剧,浪漫] 3 4 [喜剧,戏剧,浪漫片] 4 5 [喜剧] I想要向量化此功能。我尝试了 LabelEnc ..

根据日期列过滤和创建列

我有一个示例数据如下: date截止日期 2018-08-01 2018-08-11 2018-09-18 2018-12-08 2018-12-18 我想用代码中描述的条件“ 1 DL”,“ 2 DL”,“ 3 DL”等填充截止日期列。 根据python中的date列创建一个新列。 出现错误: ('系列的真值不明确。请使用a ..
发布时间:2020-09-30 00:29:00 Python

具有两个类别变量的Matplotlib点图

我想产生一种特定类型的可视化,包括一个相当简单的点状图但有所不同:两个轴都是分类变量(即有序或非数字值)。 为了说明这个问题,我将使用一个小的示例数据集,该数据集是对 seaborn的修改.load_dataset(“ tips”)并定义为: 从中导入熊猫 六个导入StringIO df =“”“总帐|小费|性别|吸烟者|天|时间|大小 16.99 | 1.01 |男性|不|星期 ..
发布时间:2020-09-30 00:28:58 Python

“自动”使用PROC GLM计算参数估计值的线性组合

背景:我有一个分类变量 X ,它具有四个适合作为单独的虚拟变量的级别。因此,共有三个虚拟变量,分别代表x = 1,x = 2,x = 3(x = 0是基线)。 问题/问题:我希望能够计算这些假人的线性组合(即使用SAS作为计算器)的值变量。例如2 * B1 + 2 * B2 + B3。 在Stata中,可以使用 lincom 命令,它使用存储的beta估计值来计算参数的线性组合。 ..
发布时间:2020-09-30 00:28:30 其他开发

处理训练和测试数据中的不同因子水平

我有一个20列的训练数据集,所有这些都是我必须用来训练模型的因素,已经获得了测试数据集,我必须在该数据集上应用我的模型进行预测并提交。 由于我们正在处理所有类别变量,我出于好奇而检查了训练数据和测试数据的水平。令我失望的是,大多数类别(变量)在训练和测试数据集中有不同的水平。 例如 table(train $ cap.shape)#训练数据列级别 bcfkx 196 4 2 ..

如何针对数据挖掘过程对数据进行分类?

我正在使用 apriori 函数进行数据挖掘。此函数仅适用于分类数据,没有值,只有文本。我的数据集满足了这些要求,因为我有五个类别变量,没有数字值,只有文本(因此变量“性别”分为“女性”和“男性”) 如果现在尝试使用 apriori()函数,则会出现以下错误: apriori(数据) asMethod(object)中的错误: 列1、2、3、4、5不符合逻 ..
发布时间:2020-09-30 00:28:20 其他开发

熊猫:将单列中的列表转换为多列

我有一个数据框,其中包含具有多个属性的列,这些列的多个属性之间用逗号分隔: df = pd.DataFrame({'id':[ 1,2,3],'labels':[“ a,b,c”,“ c,a”,“ d,a,b”]}) id标签 0 1 a,b,c 1 2 c,a 2 3 d,a,b (我知道这不是理想的情况,但数据来自外部来源。)我想将多属性列变成多个列, ..
发布时间:2020-09-30 00:28:16 Python

预处理具有分类和连续功能的大型数据文件

首先感谢您阅读我的文章,如果您能提供任何帮助我解决此问题的线索,也非常感谢。 由于我是Scikit-learn的新手,请毫不犹豫地提供任何建议,以帮助我改进流程并使其更加专业。 我的目标是对两个类别之间的数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前,我仍在寻找最合适的算法和数据预处理。 在我的数据中,我有24个值:13个为名义值,6个为二值化值,其他为连续值。这是 ..
发布时间:2020-09-30 00:28:10 Python

如何在sklearn中编码分类特征?

我有一个具有41个要素(从0到40列)的数据集,其中7个是分类的。此类别集分为两个子集: 字符串类型的子集(列功能1、2、3) int类型的子集,二进制形式为0或1(列功能6、11、20、21) 此外,(字符串类型的)列特征1、2和3具有基数3、66和11。 在这种情况下,我必须对它们进行编码以使用支持向量机算法。 这是我拥有的代码: import numpy as np ..

具有多个项目的交叉表

在SPSS中,(相对)使用因子(或值)作为表标题来创建具有多个变量的交叉表比较容易。因此,类似以下内容(组成数据等)。 Q1,Q2和Q3每个人的每个人的数字分别为1、2或3。我只是将这些留作数字,但它们可能是因素,似乎都无法帮助解决问题。 1(很多时候)2(很少)3(从不) Q1。喜欢它12 15 13 Q2。推荐它22 11 10 第三季度。使用它22 12 9 ..
发布时间:2020-09-30 00:28:05 其他开发