我必须为数据挖掘主题做一个类项目。我的主题将是挖掘stackoverflow的趋势主题数据。学校项目的AWS如何进行数据挖掘?
因此,我从here下载了数据,但数据集非常庞大(posts.xml大小为3GB),我无法在我的机器上处理它。
那么,你有什么建议,正在为AWS的数据处理做一个好的选择或不值得吗?
我在AWS上没有任何经验,所以AWS如何帮助我完成学校项目?你会怎么做呢?
UPDATE 1
所以,我的数据处理将在3个阶段:
1。转换XML(从so.com转储)到.ARFF(对于WEKA罐),
2.矿在weka中使用算法的数据,
3.将输出转换为GraphML格式,将由prefuse库读取以供可视化。
那么,AWS在哪里适合这里?我支持有在AWS两种功能,它可以帮助我:
1. EC2和
2.弹性MapReduce,
但我不知道的MapReduce工作原理和如何我可以用它在我的项目。我可以吗?
是不是所有的数据和应用程序都在关机后从EC2中清除? – zengr 2010-10-22 08:52:09
不一定。如果在EBS上有根文件系统的实例,则在实例关闭后文件系统将保留。如果你在其上设置了正确的标志(需要检查文档名称),文件系统会在实例终止后保留。 – drxzcl 2010-10-22 08:56:23
显然,即使实例未运行,您仍需为您存储在EBS卷上的每GB-mnn的任何数据收费。 – drxzcl 2010-10-22 12:10:37