如何从包含列表的 pandas 列进行单热编码? [英] How to one-hot-encode from a pandas column containing a list?
本文介绍了如何从包含列表的 pandas 列进行单热编码?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想将包含元素列表的 Pandas 列分解为与唯一元素数量相同的列,即 one-hot-encode
它们(值为 1
表示存在于一行中的给定元素和 0
在不存在的情况下).
I would like to break down a pandas column consisting of a list of elements into as many columns as there are unique elements i.e. one-hot-encode
them (with value 1
representing a given element existing in a row and 0
in the case of absence).
例如,取数据框df
Col1 Col2 Col3
C 33 [Apple, Orange, Banana]
A 2.5 [Apple, Grape]
B 42 [Banana]
我想将其转换为:
df
Col1 Col2 Apple Orange Banana Grape
C 33 1 1 1 0
A 2.5 1 0 0 1
B 42 0 0 1 0
如何使用 pandas/sklearn 来实现这一点?
How can I use pandas/sklearn to achieve this?
推荐答案
我们也可以使用 sklearn.preprocessing.MultiLabelBinarizer:
通常我们希望对现实世界的数据使用稀疏 DataFrame 以节省大量 RAM.
Often we want to use sparse DataFrame for the real world data in order to save a lot of RAM.
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer(sparse_output=True)
df = df.join(
pd.DataFrame.sparse.from_spmatrix(
mlb.fit_transform(df.pop('Col3')),
index=df.index,
columns=mlb.classes_))
结果:
In [38]: df
Out[38]:
Col1 Col2 Apple Banana Grape Orange
0 C 33.0 1 1 0 1
1 A 2.5 1 0 1 0
2 B 42.0 0 1 0 0
In [39]: df.dtypes
Out[39]:
Col1 object
Col2 float64
Apple Sparse[int32, 0]
Banana Sparse[int32, 0]
Grape Sparse[int32, 0]
Orange Sparse[int32, 0]
dtype: object
In [40]: df.memory_usage()
Out[40]:
Index 128
Col1 24
Col2 24
Apple 16 # <--- NOTE!
Banana 16 # <--- NOTE!
Grape 8 # <--- NOTE!
Orange 8 # <--- NOTE!
dtype: int64
密集解决方案
mlb = MultiLabelBinarizer()
df = df.join(pd.DataFrame(mlb.fit_transform(df.pop('Col3')),
columns=mlb.classes_,
index=df.index))
结果:
In [77]: df
Out[77]:
Col1 Col2 Apple Banana Grape Orange
0 C 33.0 1 1 0 1
1 A 2.5 1 0 1 0
2 B 42.0 0 1 0 0
这篇关于如何从包含列表的 pandas 列进行单热编码?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文