2017-05-29 52 views
0

文字说明我有以下数据集:分组一起在Python

data = pd.DataFrame({'Members':['Biology PhD student', 'Chemistry Master student', 'Engineering undergraduate student', 'Administration staff',       
'Reception staff', 'Research Associate Chemistry', 'Associate Statistics'], 'UCode':[1,1,1,2,2,1,1],'id':['aaa100','aaa121','aa123','bb212','bb214','aa111','aa109']}) 

data 

      Members      UCode id 
    0 Biology PhD student    1 aaa100 
    1 Chemistry Master student   1 aaa121 
    2 Engineering undergraduate student 1 aa123 
    3 Administration staff    2 bb212 
    4 Reception staff     2 bb214 
    5 Research Associate Chemistry  1 aa111 
    6 Associate Statistics    1 aa109 

其中列df.Members包含描述每个列出的构件的功能的字符串。

你会建议哪种文本分析发现使用列df.Members的只有信息(文本)类似的成员组?例如,在这个玩具的例子中,分析应该返回两个不同的组。我正在考虑两个字符串/单词列表之间的相似程度。 任何建议/帮助非常感谢。 谢谢 马尔科

回答

1

简单等于字计数器,例如

from collections import Counter 

WordCounter = Counter() 
for text in members: 
    words = text.split(' ') 
    for word in words: 
     WordCounter[word] += 1 

print(WordCounter.most_common(3)) 

输出: [( '学生',3),( '人员',2),( '关联',2)]

0

您需要将string“会员”转换成word-vector,然后,执行集群的载体,如果你不知道先验组的数量,或一个分类任务,如果你知道类/组的数量。

0

我可以建议东西给你,我不是专家,但我发现一个工具,提供我在一个有点类似情况。 Gensim是支持文本分析和一些功能帮助您找到文档中的主题蟒蛇的工具。检查this教程我认为它会对你非常有用。它会给你一个关于如何使用的想法。 现在这些都是非常小的文件,所以我建议你找一些方法来改善这种类型的像biterms什么数据的分析,因为它们的长度可以使你一些问题。 我希望这可以帮助你。