分组一起在Python

文字说明我有以下数据集：分组一起在Python

data = pd.DataFrame({'Members':['Biology PhD student', 'Chemistry Master student', 'Engineering undergraduate student', 'Administration staff',       
'Reception staff', 'Research Associate Chemistry', 'Associate Statistics'], 'UCode':[1,1,1,2,2,1,1],'id':['aaa100','aaa121','aa123','bb212','bb214','aa111','aa109']}) 

data 

      Members      UCode id 
    0 Biology PhD student    1 aaa100 
    1 Chemistry Master student   1 aaa121 
    2 Engineering undergraduate student 1 aa123 
    3 Administration staff    2 bb212 
    4 Reception staff     2 bb214 
    5 Research Associate Chemistry  1 aa111 
    6 Associate Statistics    1 aa109

其中列df.Members包含描述每个列出的构件的功能的字符串。

你会建议哪种文本分析发现使用列df.Members的只有信息（文本）类似的成员组？例如，在这个玩具的例子中，分析应该返回两个不同的组。我正在考虑两个字符串/单词列表之间的相似程度。任何建议/帮助非常感谢。谢谢马尔科

来源

2017-05-29 MarcoC

简单等于字计数器，例如

from collections import Counter 

WordCounter = Counter() 
for text in members: 
    words = text.split(' ') 
    for word in words: 
     WordCounter[word] += 1 

print(WordCounter.most_common(3))

输出： [（ '学生'，3），（ '人员'，2），（ '关联'，2）]

来源

2017-05-30 09:49:12 stovfl

您需要将string“会员”转换成word-vector，然后，执行集群的载体，如果你不知道先验组的数量，或一个分类任务，如果你知道类/组的数量。

来源

2017-05-29 21:09:41 shirowww

我可以建议东西给你，我不是专家，但我发现一个工具，提供我在一个有点类似情况。 Gensim是支持文本分析和一些功能帮助您找到文档中的主题蟒蛇的工具。检查this教程我认为它会对你非常有用。它会给你一个关于如何使用的想法。现在这些都是非常小的文件，所以我建议你找一些方法来改善这种类型的像biterms什么数据的分析，因为它们的长度可以使你一些问题。我希望这可以帮助你。

来源

2017-05-29 23:08:57

分组一起在Python

回答

相关问题