one-hot-encoding - IT屋-程序员软件开发技术分享社区

从具有多个值的字符串创建伪变量

我有一个数据集，其中一列包含多个值，用;分隔。 name sex good_at 1 Tom M Drawing;Hiking 2 Mary F Cooking;Joking 3 Sam M Running 4 Charlie M Swimming 我希望为good_at中的每个唯一值创建一个虚拟变量，这样每个虚 ..

发布时间：2022-04-18 13:19:30 r reshape dummy-variable one-hot-encoding 其他开发

Julia DataFrames - 如何进行一次热编码?

我正在使用 Julia 的 DataFrames.jl 包.在其中，我有一个数据框，其中的列包含字符串列表(例如 [“Type A"、“Type B"、“Type D"]).然后如何执行 one-hot 编码?我无法在 DataFrames.jl 包中找到预构建的函数. 这是我想做的一个例子: 原始数据框col1 |col2 |102 | [一] |103 |[a,b] |102 |[c, ..

发布时间：2022-01-23 19:16:18 dataframe julia one-hot-encoding 其他开发

我有一个简单的数据集. id,question,category,tags,day,quarter,group_id1,你叫什么名字,介绍,介绍,1,3,02,你叫什么名字,介绍,"介绍,工作",1,3,1 现在，如果您看到，在 tags 列中有多个用逗号分隔的输入.如果我尝试使用 pandas get_dummies 函数进行一次热编码，我会将其作为单列获取.但我想为每个标签创建列.我怎么可 ..

发布时间：2022-01-21 12:41:35 python pandas dataset one-hot-encoding Python

将张量转换为一个热编码的索引张量

我有形状 (1,1,128,128,128) 的标签张量，其中值的范围可能为 0,24.我想使用 nn.fucntional.one_hot 函数将其转换为一个热编码张量 n = 24one_hot = torch.nn.functional.one_hot(指数，n) 但这需要一个指数张量，老实说，我不确定如何获得这些指数.我唯一的张量是上述形状的标签张量，它包含的值范围为 1-24，而 ..

发布时间：2022-01-06 19:25:37 pytorch one-hot-encoding 其他开发

如何在字符级别对句子进行单热编码?

我想将一个句子转换为一个单热向量数组.这些向量将是字母表的 one-hot 表示.它看起来像下面这样: "hello" # h=7, e=4 l=11 o=14 会变成 [[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0][0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ..

发布时间：2022-01-02 18:00:14 python pandas numpy nlp one-hot-encoding Python

字符串分类特征的一种热编码

我正在尝试对一个简单的数据集执行单热编码. data = [['a', 'dog', 'red']['b', '猫', '绿色']] 使用 Scikit-Learn 预处理这些数据的最佳方法是什么? 根据直觉，您会关注 Scikit-Learn 的 OneHotEncoder.但是一个热编码器不支持字符串作为特征；它只离散整数. 那么您将使用 LabelEncoder，这会将字符串 ..

发布时间：2021-12-25 14:29:06 python encoding scikit-learn one-hot-encoding Python

Scikit Learn OneHotEncoder 拟合和变换错误:ValueError:X 具有与拟合期间不同的形状

下面是我的代码. 我知道为什么在转换过程中会发生错误.这是因为在拟合和变换过程中特征列表不匹配.我该如何解决这个问题?我如何才能为所有其余功能获得 0? 在此之后，我想将其用于 SGD 分类器的部分拟合. Jupyter QtConsole 4.3.1Python 3.6.2 |Anaconda 自定义(64 位)|(默认，2017 年 9 月 21 日，18:29:43)输入“ ..

发布时间：2021-12-14 09:24:08 python pandas machine-learning scikit-learn one-hot-encoding AI人工智能

将索引数组转换为 1-hot 编码的 numpy 数组

假设我有一个 1d numpy 数组 a = array([1,0,3]) 我想将其编码为二维单热数组 b = array([[0,1,0,0], [1,0,0,0], [0,0,0,1]]) 有没有快速的方法来做到这一点?比仅仅循环 a 来设置 b 的元素更快，即. 解决方案你的数组 a 定义了输出数组中非零元素的列.您还需要定义行，然后使用花式索引: >>>a = np.a ..

发布时间：2021-12-08 09:02:25 python numpy machine-learning numpy-ndarray one-hot-encoding AI人工智能

在几个 DataFrame 列上运行 get_dummies?

如何在多个 DataFrame 列上惯用地运行像 get_dummies 这样的函数，它需要一个列并返回多个列? 解决方案使用 pandas 0.19，您可以在一行中完成: pd.get_dummies(data=df, columns=['A', 'B']) Columns 指定进行 One Hot Encoding 的位置. >>>df乙丙0 a c 11 b c 22 a b ..

发布时间：2021-12-07 09:45:54 python pandas dataframe one-hot-encoding Python

如何在 Python 中进行一次热编码?

我有一个包含 80% 分类变量的机器学习分类问题.如果我想使用某个分类器进行分类，我必须使用一种热编码吗?我可以将数据传递给没有编码的分类器吗? 我正在尝试执行以下功能选择: 我阅读了火车文件: num_rows_to_read = 10000train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_ ..

发布时间：2021-12-03 08:36:06 python pandas machine-learning one-hot-encoding AI人工智能

在 Spark 中，如何仅对前 N 个频繁值进行一次热编码?

让，在我的数据帧 df 中，我有一列 my_category 在其中我有不同的值，我可以使用以下方法查看值计数: df.groupBy("my_category").count().show()值计数197166c 210d 5293 现在，我想在此列上应用单热编码 (OHE)，但仅针对顶部 N 频繁值(例如 N = 3)，并将所有其余不常用的值放在一个虚拟列中(比如“默认").例如，输出应该 ..

发布时间：2021-11-14 23:23:51 scala apache-spark apache-spark-sql one-hot-encoding 其他开发

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后，我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量，但我无法弄清楚如何将此向量转换为列，以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

发布时间：2021-11-14 22:40:34 pyspark apache-spark-sql apache-spark-mllib apache-spark-ml one-hot-encoding 其他开发

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后，我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量，但我无法弄清楚如何将此向量转换为列，以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

发布时间：2021-11-14 21:06:29 pyspark apache-spark-sql apache-spark-mllib apache-spark-ml one-hot-encoding 其他开发

XGBoost 错误 - 提供分类类型时，DMatrix 参数“enable_categorical"必须设置为“True"

我有四个分类特征和第五个数字特征 (Var5).当我尝试以下代码时: cat_attribs = ['var1','var2','var3','var4']full_pipeline = ColumnTransformer([('cat', OneHotEncoder(handle_unknown = 'ignore'), cat_attribs)], 余数 = 'passthrough')X_ ..

发布时间：2021-10-01 18:36:47 python pandas scikit-learn xgboost one-hot-encoding Python

keras 中的 One-hot 编码标签

我有一组来自 CSV 文件中标签列的整数 - [1,2,4,3,5,2,..].类的数量为5，即1到6的范围.我想使用以下代码对它们进行单热编码. y = df.iloc[:,10].valuesy = tf.keras.utils.to_categorical(y, num_classes = 5)是但是这段代码给了我一个错误 IndexError: 索引 5 超出了轴 1 大小为 5 ..

发布时间：2021-09-05 19:59:33 tensorflow keras one-hot-encoding 其他开发

将 Tensorflow 预测导出到 csv 但结果包含全零 - 这是因为一热结束吗?

我使用 Tensorflow 框架进行分类预测.我的数据集包含大约 1160 个输出类.输出类别值为 6 位数字.例如，789954.在使用 Tensorflow 训练和测试数据集后，我得到了大约 99% 的准确率. 现在第二步是在 csv 文件中获取预测结果，以便我可以检查预测结果(logits)是否与集合中的原始标签匹配.我们知道 logits 是我的 .所以，为了解码一个热编码，我做了 ..

发布时间：2021-09-05 19:36:58 python tensorflow one-hot-encoding Python

使用 one-hot 代码的 Tensorflow 混淆矩阵

我使用 RNN 进行多类分类，这是我的 RNN 主要代码: def RNN(x, weights, biases):x = tf.unstack(x, input_size, 1)lstm_cell = rnn.BasicLSTMCell(num_unit，forget_bias=1.0，state_is_tuple=True)stacked_lstm = rnn.MultiRNNCell([l ..

发布时间：2021-09-05 18:57:29 tensorflow confusion-matrix multiclass-classification one-hot-encoding 其他开发

如何使用 PyTorch 沿特定维度进行热编码?

我有一个大小为 [3, 15, 136] 的张量，其中: 3 是批量大小 15 - 序列长度和 136 是令牌我想使用 tokens 维度 (136) 中的概率对我的张量进行单热化.为此，我想提取序列长度中每个字母的标记维度并将 1 置于最大可能性并将所有其他标记标记为 0. 解决方案你可以使用 PyTorch 的 one_hot 函数来实现: import torc ..

发布时间：2021-09-05 18:34:28 python pytorch tensor one-hot-encoding Python

如何使用 sklearn 从 ONE-HOT-ENCODED 标签返回到单列?

我已经使用模型预测了一些数据并得到了这种结果 [[0 0 0 ... 0 0 1][0 0 0 ... 0 0 0][0 0 0 ... 0 0 0]...[0 0 0 ... 0 0 0][0 0 0 ... 0 0 1][0 0 0 ... 0 0 0]] 基本上是目标列的单热编码标签.现在我想以某种方式回到一列原始值.我用这些行来做我的编码.我怎样才能回到单列? le_candidat ..

发布时间：2021-07-16 20:16:24 python scikit-learn one-hot-encoding Python

OneHotEncoder - 仅编码一些分类变量列

假设我有一个带有以下列名称的 Pandas 数据框: 'age'(例如 33、26、51 等) 'seniority'(例如'junior'、'senior'等) 'gender'(例如'男'、'女') 'salary'(例如 32000、40000、64000 等) 我想将 seniority 分类变量转换为一个热编码值.为此，我正在执行以下操作: from sklearn. ..

发布时间：2021-07-16 20:07:15 python scikit-learn one-hot-encoding Python

one-hot-encoding相关内容

从具有多个值的字符串创建伪变量

Julia DataFrames - 如何进行一次热编码?

列中具有多个标签的一种热编码

将张量转换为一个热编码的索引张量

如何在字符级别对句子进行单热编码?

字符串分类特征的一种热编码

Scikit Learn OneHotEncoder 拟合和变换错误:ValueError:X 具有与拟合期间不同的形状

将索引数组转换为 1-hot 编码的 numpy 数组

在几个 DataFrame 列上运行 get_dummies?

如何在 Python 中进行一次热编码?

在 Spark 中，如何仅对前 N 个频繁值进行一次热编码?

pyspark - 将一次热编码后获得的稀疏向量转换为列

pyspark - 将一次热编码后获得的稀疏向量转换为列

XGBoost 错误 - 提供分类类型时，DMatrix 参数“enable_categorical"必须设置为“True"

keras 中的 One-hot 编码标签

将 Tensorflow 预测导出到 csv 但结果包含全零 - 这是因为一热结束吗?

使用 one-hot 代码的 Tensorflow 混淆矩阵

如何使用 PyTorch 沿特定维度进行热编码?

如何使用 sklearn 从 ONE-HOT-ENCODED 标签返回到单列?

OneHotEncoder - 仅编码一些分类变量列