我最后使用的是weka 。最后我听到java为它提供了一个API(JDM)。任何人都可以与工具分享他们的经验。我最感兴趣的是使用这些工具进行分类/聚类(weka在这里做的不错),而且这个工具应该有很好的API支持。使用什么数据挖掘应用程序?
回答
我已经使用Weka进行文本分类。很不错。 book也不错。一个可以保留数据表示并修改算法的框架的想法非常棒。
我们在一些我们为分类和聚类开发的软件中使用了Weka。我不是数据挖掘方面的专家,但评估它的团队以及其他一些产品肯定知道他们的东西,并且通常习惯于使用非常昂贵的现成东西。
我使用的是RapidMiner(以前是来自多特蒙德大学的YALE)。它是一个基于Java的开源工具,实现了大多数流行的分类器/集群方法。它还附带为Weka工具包实施的算法,因此这里有更多选项。带有一个非常易于使用的GUI和一个基于Java的API。
Weka是一个流行的数据挖掘平台,为分类,聚类等实施了许多教科书算法。它非常适合快速原型设计,即快速建立系统并验证它是做它的目的。
然而Weka有两个主要问题。首先是它是根据GPL许可分发的,这意味着您不能将其用作商业软件包的一部分,并且您不能修改它并且不发布更改。另外,Weka的另一个弱点是它不能处理大量的数据。如果你的数据不适合你的计算机的内存,那么你有问题。
这两个问题都通过Apache Mahout软件包解决。这是相对较新的,缺乏一些功能,但取决于你的数据挖掘问题可能是你的正确选择
其实你可以在商业软件包中使用GPL许可的东西,只是对它有规定。 [请阅读。](http://www.gnu.org/philosophy/selling.html) – SMT 2013-01-30 19:30:51
根据年度KDnuggets民意调查2007年,2008年和2009年,RapidMiner是最广泛使用的开源数据全球数据挖掘专家之间的挖掘解决方案: KDnuggets Data Mining Tool Poll 2009
RapidMiner是开源和100%的Java,RapidMiner比Weka更灵活,功能更强大。
你真的应该看看Orange数据挖掘工具包。它带有一个拖放gui以及一个Python API。
我用我自己的软件用Java开发和专门从交易数据库或序列数据库频繁模式和关联规则挖掘:
http://www.philippe-fournier-viger.com/spmf/
,提供46种算法,包括一些算法,你不会找到任何其他流行的数据挖掘软件。有一个GUI版本和一个源代码版本。
- 1. 使用Amazon EC2的数据挖掘应用程序?
- 2. 什么是数据挖掘模型?
- 3. Django/Postgres应用程序中的数据挖掘
- 4. 使用Python进行数据挖掘
- 5. python数据挖掘
- 6. 通过SQL Analysis Services挖掘模型检查/挖掘的前端应用程序
- 7. 数据挖掘中引导的数据是什么?
- 8. 我想挖掘使用TouchAction
- 9. 数据挖掘字符串
- 10. 数据挖掘情况
- 11. 数据挖掘教科书
- 12. “相似性”数据挖掘
- 13. R数据挖掘语法
- 14. Google数据挖掘工具
- 15. 使用AOP的数据挖掘程序调用堆栈的可行性
- 16. Heroku Rails应用程序的数据挖掘/统计分析选项?
- 17. 使用数据挖掘技术的定性数据分析
- 18. 数据挖掘海量数据
- 19. 什么是MySQL的良好数据挖掘/ BI /报告工具?
- 20. 什么是知识发现和数据挖掘?
- 21. 什么是车辆搜索的最佳数据挖掘方法?
- 22. 意见挖掘 - 数据库类型是什么?
- 23. 关联规则挖掘和频繁项目挖掘有什么区别
- 24. 有什么理由更喜欢数据挖掘项目的函数式编程?
- 25. 文本挖掘 - 什么是挖掘描述性Excel表格数据的最佳方式
- 26. GestureRecognizer没有响应挖掘
- 27. 用PHP动态挖掘JSON
- 28. Web挖掘或抓取或爬行?我应该使用什么工具/库?
- 29. 使用大量小数据集进行关联挖掘
- 30. 用于数据挖掘任务的数据集
嗨...最好的是weka呢? – LB40 2009-06-04 01:23:00