考虑数据框df
与列txt
df = pd.DataFrame(['String1::some_text::some_text;String2::some_text::;String3::some_text::some_text;String4::some_text::some_text'] * 10,
columns=['txt'])
df
使用和groupby
df.txt.str.split(';', expand=True).stack() \
.str.split('::').str[0].groupby(level=0).apply(list)
0 [String1, String2, String3, String4]
1 [String1, String2, String3, String4]
2 [String1, String2, String3, String4]
3 [String1, String2, String3, String4]
4 [String1, String2, String3, String4]
5 [String1, String2, String3, String4]
6 [String1, String2, String3, String4]
7 [String1, String2, String3, String4]
8 [String1, String2, String3, String4]
9 [String1, String2, String3, String4]
dtype: object
我去查看列的D型细胞和它的“对象”。我不能设法编码它,因为它说..“UnicodeEncodeError:'ascii'编解码器不能编码字符u'\ xae'在位置1679:序号不在范围(128)”当我尝试:df.column。 astype(STR)。它的工作原理是 – xxxvinxxx