python数据挖掘

我对数据挖掘没有太多的了解，但我需要关于聚类的一些想法。让我先描述一下我的问题。python数据挖掘

我有大约100张包含用户评论的数据表。我试图找到描述质量的单词。人们可以说这是惊人的质量，另一个人现在可以说质量很高，因此我必须将那些描述这些类似句子的文档聚类，并获得这些句子的频率。这里适用什么概念？

猜测我必须指定一些停用词和同义词。我对这个概念不太熟悉。

有人能给我一些详细的链接或解释吗？以及使用什么工具？我基本上是一个Python程序员，所以任何Python模块将不胜感激。

谢谢

2011-04-04 Rkz

我认为你有一个感伤分析（意见挖掘）的任务在手。你应该看看关于情感分析的文章。 [bing liu的感伤分析页面]（http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html）另外看看nltk，它会对你的任务非常有用。 – viper 2012-11-28 05:53:58

有http://www.nltk.org/语言处理。借助这个库，您可以将文本拆分为句子，计算术语频率，查找同义词等等。

Carrot^2是一个不错的开源项目，用于聚集文本片段，不幸的是它是用Java编写的。其聚类背后的想法是术语和短语（bigrams和trigrams）频率。在预处理每个文档（片段，评论）之后，将其表示为术语/短语频率的向量。为了计算群集，他们使用一些线性代数，并找到这个空间中的主要成分。然后这些组件用于为它们形成集群和标签。

在这种情况下，值得将评论作为文档来考虑，将它们集群并为集群获取标签。可能是标签会以某种方式评估评论。

在特定情况下，它是值得消除感兴趣的词如此大幅度降低维度，这是非常关键的，这样的任务

另一个有用的项目 - montylingua

来源

2011-04-04 07:31:37 Andrey

增加了一些建议 – Andrey 2011-04-04 08:08:33