我对数据挖掘没有太多的了解,但我需要关于聚类的一些想法。让我先描述一下我的问题。python数据挖掘
我有大约100张包含用户评论的数据表。我试图找到描述质量的单词。人们可以说这是惊人的质量,另一个人现在可以说质量很高,因此我必须将那些描述这些类似句子的文档聚类,并获得这些句子的频率。这里适用什么概念?
猜测我必须指定一些停用词和同义词。我对这个概念不太熟悉。
有人能给我一些详细的链接或解释吗?以及使用什么工具?我基本上是一个Python程序员,所以任何Python模块将不胜感激。
谢谢
我认为你有一个感伤分析(意见挖掘)的任务在手。你应该看看关于情感分析的文章。 [bing liu的感伤分析页面](http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html)另外看看nltk,它会对你的任务非常有用。 – viper 2012-11-28 05:53:58