文字说明我有以下数据集:分组一起在Python
data = pd.DataFrame({'Members':['Biology PhD student', 'Chemistry Master student', 'Engineering undergraduate student', 'Administration staff',
'Reception staff', 'Research Associate Chemistry', 'Associate Statistics'], 'UCode':[1,1,1,2,2,1,1],'id':['aaa100','aaa121','aa123','bb212','bb214','aa111','aa109']})
data
Members UCode id
0 Biology PhD student 1 aaa100
1 Chemistry Master student 1 aaa121
2 Engineering undergraduate student 1 aa123
3 Administration staff 2 bb212
4 Reception staff 2 bb214
5 Research Associate Chemistry 1 aa111
6 Associate Statistics 1 aa109
其中列df.Members
包含描述每个列出的构件的功能的字符串。
你会建议哪种文本分析发现使用列df.Members
的只有信息(文本)类似的成员组?例如,在这个玩具的例子中,分析应该返回两个不同的组。我正在考虑两个字符串/单词列表之间的相似程度。 任何建议/帮助非常感谢。 谢谢 马尔科