one-hot-encoding相关内容

Julia DataFrames - 如何进行一次热编码?

我正在使用 Julia 的 DataFrames.jl 包.在其中,我有一个数据框,其中的列包含字符串列表(例如 [“Type A"、“Type B"、“Type D"]).然后如何执行 one-hot 编码?我无法在 DataFrames.jl 包中找到预构建的函数. 这是我想做的一个例子: 原始数据框col1 |col2 |102 | [一] |103 |[a,b] |102 |[c, ..
发布时间:2022-01-23 19:16:18 其他开发

列中具有多个标签的一种热编码

我有一个简单的数据集. id,question,category,tags,day,quarter,group_id1,你叫什么名字,介绍,介绍,1,3,02,你叫什么名字,介绍,"介绍,工作",1,3,1 现在,如果您看到,在 tags 列中有多个用逗号分隔的输入.如果我尝试使用 pandas get_dummies 函数进行一次热编码,我会将其作为单列获取.但我想为每个标签创建列.我怎么可 ..
发布时间:2022-01-21 12:41:35 Python

将张量转换为一个热编码的索引张量

我有形状 (1,1,128,128,128) 的标签张量,其中值的范围可能为 0,24.我想使用 nn.fucntional.one_hot 函数 将其转换为一个热编码张量 n = 24one_hot = torch.nn.functional.one_hot(指数,n) 但这需要一个指数张量,老实说,我不确定如何获得这些指数.我唯一的张量是上述形状的标签张量,它包含的值范围为 1-24,而 ..
发布时间:2022-01-06 19:25:37 其他开发

字符串分类特征的一种热编码

我正在尝试对一个简单的数据集执行单热编码. data = [['a', 'dog', 'red']['b', '猫', '绿色']] 使用 Scikit-Learn 预处理这些数据的最佳方法是什么? 根据直觉,您会关注 Scikit-Learn 的 OneHotEncoder.但是一个热编码器不支持字符串作为特征;它只离散整数. 那么您将使用 LabelEncoder,这会将字符串 ..
发布时间:2021-12-25 14:29:06 Python

Scikit Learn OneHotEncoder 拟合和变换错误:ValueError:X 具有与拟合期间不同的形状

下面是我的代码. 我知道为什么在转换过程中会发生错误.这是因为在拟合和变换过程中特征列表不匹配.我该如何解决这个问题?我如何才能为所有其余功能获得 0? 在此之后,我想将其用于 SGD 分类器的部分拟合. Jupyter QtConsole 4.3.1Python 3.6.2 |Anaconda 自定义(64 位)|(默认,2017 年 9 月 21 日,18:29:43)输入“ ..

将索引数组转换为 1-hot 编码的 numpy 数组

假设我有一个 1d numpy 数组 a = array([1,0,3]) 我想将其编码为二维单热数组 b = array([[0,1,0,0], [1,0,0,0], [0,0,0,1]]) 有没有快速的方法来做到这一点?比仅仅循环 a 来设置 b 的元素更快,即. 解决方案 你的数组 a 定义了输出数组中非零元素的列.您还需要定义行,然后使用花式索引: >>>a = np.a ..

如何在 Python 中进行一次热编码?

我有一个包含 80% 分类变量的机器学习分类问题.如果我想使用某个分类器进行分类,我必须使用一种热编码吗?我可以将数据传递给没有编码的分类器吗? 我正在尝试执行以下功能选择: 我阅读了火车文件: num_rows_to_read = 10000train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_ ..
发布时间:2021-12-03 08:36:06 AI人工智能

在 Spark 中,如何仅对前 N 个频繁值进行一次热编码?

让,在我的数据帧 df 中,我有一列 my_category 在其中我有不同的值,我可以使用以下方法查看值计数: df.groupBy("my_category").count().show()值计数197166c 210d 5293 现在,我想在此列上应用单热编码 (OHE),但仅针对顶部 N 频繁值(例如 N = 3),并将所有其余不常用的值放在一个虚拟列中(比如“默认").例如,输出应该 ..
发布时间:2021-11-14 23:23:51 其他开发

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

keras 中的 One-hot 编码标签

我有一组来自 CSV 文件中标签列的整数 - [1,2,4,3,5,2,..].类的数量为5,即1到6的范围.我想使用以下代码对它们进行单热编码. y = df.iloc[:,10].valuesy = tf.keras.utils.to_categorical(y, num_classes = 5)是 但是这段代码给了我一个错误 IndexError: 索引 5 超出了轴 1 大小为 5 ..
发布时间:2021-09-05 19:59:33 其他开发

将 Tensorflow 预测导出到 csv 但结果包含全零 - 这是因为一热结束吗?

我使用 Tensorflow 框架进行分类预测.我的数据集包含大约 1160 个输出类.输出类别值为 6 位数字.例如,789954.在使用 Tensorflow 训练和测试数据集后,我得到了大约 99% 的准确率. 现在第二步是在 csv 文件中获取预测结果,以便我可以检查预测结果(logits)是否与集合中的原始标签匹配.我们知道 logits 是我的 .所以,为了解码一个热编码,我做了 ..
发布时间:2021-09-05 19:36:58 Python

如何使用 PyTorch 沿特定维度进行热编码?

我有一个大小为 [3, 15, 136] 的张量,其中: 3 是批量大小 15 - 序列长度和 136 是令牌 我想使用 tokens 维度 (136) 中的概率对我的张量进行单热化.为此,我想提取序列长度中每个字母的标记维度并将 1 置于最大可能性并将所有其他标记标记为 0. 解决方案 你可以使用 PyTorch 的 one_hot 函数来实现: import torc ..
发布时间:2021-09-05 18:34:28 Python

OneHotEncoder - 仅编码一些分类变量列

假设我有一个带有以下列名称的 Pandas 数据框: 'age'(例如 33、26、51 等) 'seniority'(例如'junior'、'senior'等) 'gender'(例如'男'、'女') 'salary'(例如 32000、40000、64000 等) 我想将 seniority 分类变量转换为一个热编码值.为此,我正在执行以下操作: from sklearn. ..
发布时间:2021-07-16 20:07:15 Python