categorical-data相关内容
我想使用R生成两个类别变量(例如,眼睛颜色和头发颜色),在这里可以指定这两个变量的关联程度。对我而言,哪个颜色的眼睛颜色与哪个头发的颜色颜色相关并不重要,但是仅需要能够指定整体关联性(例如通过指定比值比)即可。另外,我知道有一些方法可以使用例如 mvtnorm 包对两个正态分布的连续变量执行此操作,因此我可以采用该路线,然后选择切点作为在事后对变量进行分类,但是如果可以避免的话,我不想那样做。任何
..
假设我有以下数据: Var1 =(1,1,0,1,0,1,0 ,1,1,0,1,1,0,0,0,1,0) Var2 =(1,0,0,1,1,0,0,1,0,1,0, 1,1,1,0,1,1) Var3 =(0,0,0,1,1,1,0,0,1,0,1,0,0,0,1,0 ,0) 使用 if / else 语法,我需要创建新的 Var4 ,以便 如果var1 =
..
我正在处理包含流派作为特征的电影数据集。数据集中的示例可能同时属于多个流派。因此,它们包含一个类型标签列表。 数据看起来像这样- movieId流派 0 1 [冒险,动画,儿童,喜剧,幻想] 1 2 [冒险,儿童,喜剧,幻想] 2 3 [喜剧,浪漫] 3 4 [喜剧,戏剧,浪漫片] 4 5 [喜剧] I想要向量化此功能。我尝试了 LabelEnc
..
我有一个示例数据如下: date截止日期 2018-08-01 2018-08-11 2018-09-18 2018-12-08 2018-12-18 我想用代码中描述的条件“ 1 DL”,“ 2 DL”,“ 3 DL”等填充截止日期列。 根据python中的date列创建一个新列。 出现错误: ('系列的真值不明确。请使用a
..
我想产生一种特定类型的可视化,包括一个相当简单的点状图但有所不同:两个轴都是分类变量(即有序或非数字值)。 为了说明这个问题,我将使用一个小的示例数据集,该数据集是对 seaborn的修改.load_dataset(“ tips”)并定义为: 从中导入熊猫 六个导入StringIO df =“”“总帐|小费|性别|吸烟者|天|时间|大小 16.99 | 1.01 |男性|不|星期
..
我一般对R和统计资料还是陌生的。我试图在ggplot2中的线形图中绘制2个类别变量(语音的一部分“ pos”,条件“ trcond”)和一个数字变量(得分“ totacc”)。 > df1 head(df1) trcond字幕pos totacc 7 L New Scene_16
..
我有一个大数据框(对57个变量的观测值达到+ 239k),其中包含一些疾病描述以及针对不同年龄段人群的药物。我想在每种疾病描述的使用频率最高的四分位数中找到这些药物。 为举一个可重复的示例,我创建了1000个观察数据框: / p> set.seed(1); sk
..
MCVE df = pd.DataFrame({ 'Cat':['SF','W ','F','R64','SF','F'], 'ID':[1、1、1、2、2、2] }) df.Cat = pd.Categorical( df.Cat,category = ['R64','SF','F','W'],ordered = True) 如您所见,我定义了有序
..
我正在尝试预处理成人数据以便进行分类。我使用scikit-learn处理类别属性。 从sklearn.preprocessing导入LabelEncoder labelencoder = LabelEncoder() X [:,0] = labelencoder.fit_transform(X [:,0]) labelencoder.classes_ 输出:
..
我有一个具有分类索引的DataFrame,如下所示: 将熊猫导入为pd 导入matplotlib.pyplot为plt %matplotlib笔记本 意外_by_day = pd.DataFrame({'num_accidents':[5659,5298,4917,4461,4181,4038,3985], '工作日' :[7,1,6,5,4,2,3]}) weekday_ma
..
就像这篇文章我正在为 MCMCglmm 的符号而苦苦挣扎,尤其是 trait 。我的代码如下 library(“ MCMCglmm”) set.seed(123) y
..
背景:我有一个分类变量 X ,它具有四个适合作为单独的虚拟变量的级别。因此,共有三个虚拟变量,分别代表x = 1,x = 2,x = 3(x = 0是基线)。 问题/问题:我希望能够计算这些假人的线性组合(即使用SAS作为计算器)的值变量。例如2 * B1 + 2 * B2 + B3。 在Stata中,可以使用 lincom 命令,它使用存储的beta估计值来计算参数的线性组合。
..
我正在使用seaborn模块生成类似于以下示例的图。 将熊猫导入为pd 导入matplotlib.pyplot as plt 导入numpy as np 导入seaborn as sns location =“ /global/scratch/umalmonj/WRF/juris/golden_hourly_manual_obs.csv” df = pd.read_csv(
..
我有一个20列的训练数据集,所有这些都是我必须用来训练模型的因素,已经获得了测试数据集,我必须在该数据集上应用我的模型进行预测并提交。 由于我们正在处理所有类别变量,我出于好奇而检查了训练数据和测试数据的水平。令我失望的是,大多数类别(变量)在训练和测试数据集中有不同的水平。 例如 table(train $ cap.shape)#训练数据列级别 bcfkx 196 4 2
..
我正在使用 apriori 函数进行数据挖掘。此函数仅适用于分类数据,没有值,只有文本。我的数据集满足了这些要求,因为我有五个类别变量,没有数字值,只有文本(因此变量“性别”分为“女性”和“男性”) 如果现在尝试使用 apriori()函数,则会出现以下错误: apriori(数据) asMethod(object)中的错误: 列1、2、3、4、5不符合逻
..
我有一个数据框,其中包含具有多个属性的列,这些列的多个属性之间用逗号分隔: df = pd.DataFrame({'id':[ 1,2,3],'labels':[“ a,b,c”,“ c,a”,“ d,a,b”]}) id标签 0 1 a,b,c 1 2 c,a 2 3 d,a,b (我知道这不是理想的情况,但数据来自外部来源。)我想将多属性列变成多个列,
..
我正在尝试绘制几行(而不是条形图,如这种情况)。我的y值是 float ,而x值是分类数据。如何在 matplotlib 中做到这一点? 我的值: data1 = [5.65,7.61,8.17,7.60,9.54] data2 = [7.61,16.17,16.18,19.54,19.81] data3 = [29.55 ,30.24,31.51,36.40,35.47]
..
首先感谢您阅读我的文章,如果您能提供任何帮助我解决此问题的线索,也非常感谢。 由于我是Scikit-learn的新手,请毫不犹豫地提供任何建议,以帮助我改进流程并使其更加专业。 我的目标是对两个类别之间的数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前,我仍在寻找最合适的算法和数据预处理。 在我的数据中,我有24个值:13个为名义值,6个为二值化值,其他为连续值。这是
..
我有一个具有41个要素(从0到40列)的数据集,其中7个是分类的。此类别集分为两个子集: 字符串类型的子集(列功能1、2、3) int类型的子集,二进制形式为0或1(列功能6、11、20、21) 此外,(字符串类型的)列特征1、2和3具有基数3、66和11。 在这种情况下,我必须对它们进行编码以使用支持向量机算法。 这是我拥有的代码: import numpy as np
..
在SPSS中,(相对)使用因子(或值)作为表标题来创建具有多个变量的交叉表比较容易。因此,类似以下内容(组成数据等)。 Q1,Q2和Q3每个人的每个人的数字分别为1、2或3。我只是将这些留作数字,但它们可能是因素,似乎都无法帮助解决问题。 1(很多时候)2(很少)3(从不) Q1。喜欢它12 15 13 Q2。推荐它22 11 10 第三季度。使用它22 12 9
..