2011-04-04 120 views
3

我对数据挖掘没有太多的了解,但我需要关于聚类的一些想法。让我先描述一下我的问题。python数据挖掘

我有大约100张包含用户评论的数据表。我试图找到描述质量的单词。人们可以说这是惊人的质量,另一个人现在可以说质量很高,因此我必须将那些描述这些类似句子的文档聚类,并获得这些句子的频率。这里适用什么概念?

猜测我必须指定一些停用词和同义词。我对这个概念不太熟悉。

有人能给我一些详细的链接或解释吗?以及使用什么工具?我基本上是一个Python程序员,所以任何Python模块将不胜感激。

谢谢

+0

我认为你有一个感伤分析(意见挖掘)的任务在手。你应该看看关于情感分析的文章。 [bing liu的感伤分析页面](http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html)另外看看nltk,它会对你的任务非常有用。 – viper 2012-11-28 05:53:58

回答

4

http://www.nltk.org/语言处理。借助这个库,您可以将文本拆分为句子,计算术语频率,查找同义词等等。

Carrot^2是一个不错的开源项目,用于聚集文本片段,不幸的是它是用Java编写的。其聚类背后的想法是术语和短语(bigrams和trigrams)频率。在预处理每个文档(片段,评论)之后,将其表示为术语/短语频率的向量。为了计算群集,他们使用一些线性代数,并找到这个空间中的主要成分。然后这些组件用于为它们形成集群和标签。

在这种情况下,值得将评论作为文档来考虑,将它们集群并为集群获取标签。可能是标签会以某种方式评估评论。

在特定情况下,它是值得消除感兴趣的词如此大幅度降低维度,这是非常关键的,这样的任务

另一个有用的项目 - montylingua

+0

增加了一些建议 – Andrey 2011-04-04 08:08:33