categorical-data 第4页 - IT屋-程序员软件开发技术分享社区

在R中生成具有选定关联度的两个类别变量

我想使用R生成两个类别变量（例如，眼睛颜色和头发颜色），在这里可以指定这两个变量的关联程度。对我而言，哪个颜色的眼睛颜色与哪个头发的颜色颜色相关并不重要，但是仅需要能够指定整体关联性（例如通过指定比值比）即可。另外，我知道有一些方法可以使用例如 mvtnorm 包对两个正态分布的连续变量执行此操作，因此我可以采用该路线，然后选择切点作为在事后对变量进行分类，但是如果可以避免的话，我不想那样做。任何 ..

发布时间：2020-09-30 00:30:07 r simulation categorical-data 其他开发

从现有变量生成新的二项式变量

假设我有以下数据： Var1 =（1,1,0,1,0,1,0 ，1,1,0,1,1,0,0,0,1,0） Var2 =（1,0,0,1,1,0,0,1,0,1,0， 1,1,1,0,1,1） Var3 =（0,0,0,1,1,1,0,0,1,0,1,0,0,0,1,0 ，0）使用 if / else 语法，我需要创建新的 Var4 ，以便如果var1 = ..

发布时间：2020-09-30 00:30:05 r categorical-data 其他开发

每个示例对具有多个类别的分类特征进行编码-sklearn

我正在处理包含流派作为特征的电影数据集。数据集中的示例可能同时属于多个流派。因此，它们包含一个类型标签列表。数据看起来像这样- movieId流派 0 1 [冒险，动画，儿童，喜剧，幻想] 1 2 [冒险，儿童，喜剧，幻想] 2 3 [喜剧，浪漫] 3 4 [喜剧，戏剧，浪漫片] 4 5 [喜剧] I想要向量化此功能。我尝试了 LabelEnc ..

发布时间：2020-09-30 00:29:02 pandas machine-learning scikit-learn feature-extraction categorical-data AI人工智能

根据日期列过滤和创建列

我有一个示例数据如下： date截止日期 2018-08-01 2018-08-11 2018-09-18 2018-12-08 2018-12-18 我想用代码中描述的条件“ 1 DL”，“ 2 DL”，“ 3 DL”等填充截止日期列。根据python中的date列创建一个新列。出现错误：（'系列的真值不明确。请使用a ..

发布时间：2020-09-30 00:29:00 python python-3.x pandas categorical-data Python

具有两个类别变量的Matplotlib点图

我想产生一种特定类型的可视化，包括一个相当简单的点状图但有所不同：两个轴都是分类变量（即有序或非数字值）。为了说明这个问题，我将使用一个小的示例数据集，该数据集是对 seaborn的修改.load_dataset（“ tips”）并定义为：从中导入熊猫六个导入StringIO df =“”“总帐|小费|性别|吸烟者|天|时间|大小 16.99 | 1.01 |男性|不|星期 ..

发布时间：2020-09-30 00:28:58 python matplotlib seaborn categorical-data Python

在R中具有2个类别变量和1个连续变量的折线图

我一般对R和统计资料还是陌生的。我试图在ggplot2中的线形图中绘制2个类别变量（语音的一部分“ pos”，条件“ trcond”）和一个数字变量（得分“ totacc”）。 > df1 head（df1） trcond字幕pos totacc 7 L New Scene_16 ..

发布时间：2020-09-30 00:28:55 r ggplot2 categorical-data linegraph 其他开发

在表格中找到第三个四分位数的频率

我有一个大数据框（对57个变量的观测值达到+ 239k），其中包含一些疾病描述以及针对不同年龄段人群的药物。我想在每种疾病描述的使用频率最高的四分位数中找到这些药物。为举一个可重复的示例，我创建了1000个观察数据框： / p> set.seed（1）; sk ..

发布时间：2020-09-30 00:28:53 r frequency categorical-data contingency 其他开发

在有序分类列上使用groupby的行为异常

MCVE df = pd.DataFrame（{ 'Cat'：['SF'，'W '，'F'，'R64'，'SF'，'F']， 'ID'：[1、1、1、2、2、2] }） df.Cat = pd.Categorical（ df.Cat，category = ['R64'，'SF'，'F'，'W']，ordered = True）如您所见，我定义了有序 ..

发布时间：2020-09-30 00:28:41 python pandas group-by pandas-groupby categorical-data Python

Scikit学习LabelEncoder：IndexError：用作索引的数组必须是整数（或布尔值）类型

我正在尝试预处理成人数据以便进行分类。我使用scikit-learn处理类别属性。从sklearn.preprocessing导入LabelEncoder labelencoder = LabelEncoder（） X [：，0] = labelencoder.fit_transform（X [：，0]） labelencoder.classes_ 输出： ..

发布时间：2020-09-30 00:28:37 python scikit-learn categorical-data Python

具有类别索引DataFrame的熊猫的plt.plot问题

我有一个具有分类索引的DataFrame，如下所示：将熊猫导入为pd 导入matplotlib.pyplot为plt ％matplotlib笔记本意外_by_day = pd.DataFrame（{'num_accidents'：[5659,5298,4917,4461,4181,4038,3985]， '工作日' ：[7,1,6,5,4,2,3]}） weekday_ma ..

发布时间：2020-09-30 00:28:35 python-3.x pandas matplotlib categorical-data Python

“特质”的含义在MCMCglmm中

就像这篇文章我正在为 MCMCglmm 的符号而苦苦挣扎，尤其是 trait 。我的代码如下 library（“ MCMCglmm”） set.seed（123） y ..

发布时间：2020-09-30 00:28:32 r glm categorical-data multi-level mcmc 其他开发

“自动”使用PROC GLM计算参数估计值的线性组合

背景：我有一个分类变量 X ，它具有四个适合作为单独的虚拟变量的级别。因此，共有三个虚拟变量，分别代表x = 1，x = 2，x = 3（x = 0是基线）。问题/问题：我希望能够计算这些假人的线性组合（即使用SAS作为计算器）的值变量。例如2 * B1 + 2 * B2 + B3。在Stata中，可以使用 lincom 命令，它使用存储的beta估计值来计算参数的线性组合。 ..

发布时间：2020-09-30 00:28:30 sas categorical-data 其他开发

词汇分散情节是天生的

我正在使用seaborn模块生成类似于以下示例的图。将熊猫导入为pd 导入matplotlib.pyplot as plt 导入numpy as np 导入seaborn as sns location =“ /global/scratch/umalmonj/WRF/juris/golden_hourly_manual_obs.csv” df = pd.read_csv（ ..

发布时间：2020-09-30 00:28:28 python pandas matplotlib seaborn categorical-data Python

处理训练和测试数据中的不同因子水平

我有一个20列的训练数据集，所有这些都是我必须用来训练模型的因素，已经获得了测试数据集，我必须在该数据集上应用我的模型进行预测并提交。由于我们正在处理所有类别变量，我出于好奇而检查了训练数据和测试数据的水平。令我失望的是，大多数类别（变量）在训练和测试数据集中有不同的水平。例如 table（train $ cap.shape）＃训练数据列级别 bcfkx 196 4 2 ..

发布时间：2020-09-30 00:28:26 r machine-learning classification random-forest categorical-data AI人工智能

如何针对数据挖掘过程对数据进行分类？

我正在使用 apriori 函数进行数据挖掘。此函数仅适用于分类数据，没有值，只有文本。我的数据集满足了这些要求，因为我有五个类别变量，没有数字值，只有文本（因此变量“性别”分为“女性”和“男性”）如果现在尝试使用 apriori（）函数，则会出现以下错误： apriori（数据） asMethod（object）中的错误：列1、2、3、4、5不符合逻 ..

发布时间：2020-09-30 00:28:20 r apriori categorical-data 其他开发

熊猫：将单列中的列表转换为多列

我有一个数据框，其中包含具有多个属性的列，这些列的多个属性之间用逗号分隔： df = pd.DataFrame（{'id'：[ 1,2,3]，'labels'：[“ a，b，c”，“ c，a”，“ d，a，b”]}） id标签 0 1 a，b，c 1 2 c，a 2 3 d，a，b （我知道这不是理想的情况，但数据来自外部来源。）我想将多属性列变成多个列， ..

发布时间：2020-09-30 00:28:16 python pandas dataframe categorical-data Python

Matplotlib：如何在X轴上绘制带有分类数据的线？

我正在尝试绘制几行（而不是条形图，如这种情况）。我的y值是 float ，而x值是分类数据。如何在 matplotlib 中做到这一点？我的值： data1 = [5.65,7.61,8.17,7.60,9.54] data2 = [7.61,16.17,16.18,19.54,19.81] data3 = [29.55 ，30.24,31.51,36.40,35.47] ..

发布时间：2020-09-30 00:28:12 python matplotlib plot categorical-data Python

预处理具有分类和连续功能的大型数据文件

首先感谢您阅读我的文章，如果您能提供任何帮助我解决此问题的线索，也非常感谢。由于我是Scikit-learn的新手，请毫不犹豫地提供任何建议，以帮助我改进流程并使其更加专业。我的目标是对两个类别之间的数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前，我仍在寻找最合适的算法和数据预处理。在我的数据中，我有24个值：13个为名义值，6个为二值化值，其他为连续值。这是 ..

发布时间：2020-09-30 00:28:10 python scikit-learn classification categorical-data Python

如何在sklearn中编码分类特征？

我有一个具有41个要素（从0到40列）的数据集，其中7个是分类的。此类别集分为两个子集：字符串类型的子集（列功能1、2、3） int类型的子集，二进制形式为0或1（列功能6、11、20、21）此外，（字符串类型的）列特征1、2和3具有基数3、66和11。在这种情况下，我必须对它们进行编码以使用支持向量机算法。这是我拥有的代码： import numpy as np ..

发布时间：2020-09-30 00:28:08 python scikit-learn categorical-data one-hot-encoding dictvectorizer Python

具有多个项目的交叉表

在SPSS中，（相对）使用因子（或值）作为表标题来创建具有多个变量的交叉表比较容易。因此，类似以下内容（组成数据等）。 Q1，Q2和Q3每个人的每个人的数字分别为1、2或3。我只是将这些留作数字，但它们可能是因素，似乎都无法帮助解决问题。 1（很多时候）2（很少）3（从不） Q1。喜欢它12 15 13 Q2。推荐它22 11 10 第三季度。使用它22 12 9 ..

发布时间：2020-09-30 00:28:05 r crosstab categorical-data 其他开发

categorical-data相关内容