2010-10-22 86 views
1

我必须为数据挖掘主题做一个类项目。我的主题将是挖掘stackoverflow的趋势主题数据。学校项目的AWS如何进行数据挖掘?

因此,我从here下载了数据,但数据集非常庞大(posts.xml大小为3GB),我无法在我的机器上处理它。

那么,你有什么建议,正在为AWS的数据处理做一个好的选择或不值得吗?

我在AWS上没有任何经验,所以AWS如何帮助我完成学校项目?你会怎么做呢?

UPDATE 1

所以,我的数据处理将在3个阶段:
1。转换XML(从so.com转储)到.ARFF(对于WEKA罐),
2.矿在weka中使用算法的数据,
3.将输出转换为GraphML格式,将由prefuse库读取以供可视化。

那么,AWS在哪里适合这里?我支持有在AWS两种功能,它可以帮助我:
1. EC2和
2.弹性MapReduce,
但我不知道的MapReduce工作原理和如何我可以用它在我的项目。我可以吗?

回答

1

您可以认为EC2(您将用于做实际计算的AWS的一部分)只不过是以编程方式或通过简单的Web界面租用计算机的方式。如果你需要很多机器并且打算短时间使用它们,那么AWS可能对你有好处。但是,没有魔力。您仍然必须选择正确的软件来安装它们,将数据加载到EBS卷或S3以及所有其他无聊的细节中。

另请注意,EC2实例和存储相对较贵。如果你真的拥有机器/磁盘并使用它3年,准备支付5-10倍的费用。

关于您的问题,我真诚地怀疑一台现代计算机无法处理3千兆字节的xml文件。实际上,我只是在我的工作站上索引了SOLR中所有堆栈溢出的posts.xml,并且它们都是顺风顺水。你使用类SAX解析器吗?如果不是,那将比所有的云服务结合起来更有帮助。

+0

是不是所有的数据和应用程序都在关机后从EC2中清除? – zengr 2010-10-22 08:52:09

+1

不一定。如果在EBS上有根文件系统的实例,则在实例关闭后文件系统将保留。如果你在其上设置了正确的标志(需要检查文档名称),文件系统会在实例终止后保留。 – drxzcl 2010-10-22 08:56:23

+0

显然,即使实例未运行,您仍需为您存储在EBS卷上的每GB-mnn的任何数据收费。 – drxzcl 2010-10-22 12:10:37

0

听起来像是一个有趣的项目,或者至少是接触新技术的很好的借口 - 我希望在我上学的时候会有类似的东西。

在大多数情况下,AWS为您提供一个准系统服务器,所以显而易见的问题是,您是否决定要如何处理数据?例如。 - 你只是想在.xml上运行一个shell脚本,或者你想使用hadoop等吗?

AWS的美妙之处在于,您可以根据需求获得所需的所有容量。例如,在你的情况下,你可能不需要多个实例只是一个强壮的实例。如果您只需要服务器几个小时,您就不必为整月或甚至一周的根服务器付费。

如果您让我们更多地了解您想要如何处理数据,也许我们可以进一步提供帮助。

+0

更新了我的答案。 – zengr 2010-10-24 20:12:20