我想在sklearn中使用MultiLabelBinarizer
。我有一个熊猫系列,我想喂这个系列作为MultiLabelBinarizer
的适合功能的输入。但是,我发现MultiLabelBinarizer的匹配需要输入表格iterable of iterables
。我不知道如何将熊猫系列转换为所需类型。将熊猫系列转换为可迭代的迭代
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
data = pd.read_csv("somecsvFile")
y = pd.DataFrame(data['class'])
mlb = MultiLabelBinarizer()
y = mlb.fit(???)
我试图将其转换为numpy数组,尝试使用iter功能的熊猫,但似乎没有工作。
请给我一些建议。
感谢
EDIT1:的print(data['class'].head(10))
输出是:
0 func
1 func
2 func
3 non func
4 func
5 func
6 non func
7 non func
8 non func
9 func
Name: status_group, dtype: object
你的数据框是什么样的?这个解决方案很简单,我只需要知道你的df有哪些列。 –
你可以发布'print(data ['class']。head(10))''的输出吗? – MaxU
@cᴏʟᴅsᴘᴇᴇᴅ - 编辑的问题添加头的输出。 –