2009-01-07 58 views
4

我最后使用的是weka 。最后我听到java为它提供了一个API(JDM)。任何人都可以与工具分享他们的经验。我最感兴趣的是使用这些工具进行分类/聚类(weka在这里做的不错),而且这个工具应该有很好的API支持。使用什么数据挖掘应用程序?

+0

嗨...最好的是weka呢? – LB40 2009-06-04 01:23:00

回答

2

我已经使用Weka进行文本分类。很不错。 book也不错。一个可以保留数据表示并修改算法的框架的想法非常棒。

0

我们在一些我们为分类和聚类开发的软件中使用了Weka。我不是数据挖掘方面的专家,但评估它的团队以及其他一些产品肯定知道他们的东西,并且通常习惯于使用非常昂贵的现成东西。

2

我使用的是RapidMiner(以前是来自多特蒙德大学的YALE)。它是一个基于Java的开源工具,实现了大多数流行的分类器/集群方法。它还附带为Weka工具包实施的算法,因此这里有更多选项。带有一个非常易于使用的GUI和一个基于Java的API。

1

Weka是一个流行的数据挖掘平台,为分类,聚类等实施了许多教科书算法。它非常适合快速原型设计,即快速建立系统并验证它是做它的目的。

然而Weka有两个主要问题。首先是它是根据GPL许可分发的,这意味着您不能将其用作商业软件包的一部分,并且您不能修改它并且不发布更改。另外,Weka的另一个弱点是它不能处理大量的数据。如果你的数据不适合你的计算机的内存,那么你有问题。

这两个问题都通过Apache Mahout软件包解决。这是相对较新的,缺乏一些功能,但取决于你的数据挖掘问题可能是你的正确选择

+0

其实你可以在商业软件包中使用GPL许可的东西,只是对它有规定。 [请阅读。](http://www.gnu.org/philosophy/selling.html) – SMT 2013-01-30 19:30:51

0

根据年度KDnuggets民意调查2007年,2008年和2009年,RapidMiner是最广泛使用的开源数据全球数据挖掘专家之间的挖掘解决方案: KDnuggets Data Mining Tool Poll 2009

RapidMiner是开源和100%的Java,RapidMiner比Weka更灵活,功能更强大。

0

你真的应该看看Orange数据挖掘工具包。它带有一个拖放gui以及一个Python API。

0

我用我自己的软件用Java开发和专门从交易数据库或序列数据库频繁模式和关联规则挖掘:

http://www.philippe-fournier-viger.com/spmf/

,提供46种算法,包括一些算法,你不会找到任何其他流行的数据挖掘软件。有一个GUI版本和一个源代码版本。