学校项目的AWS如何进行数据挖掘？

我必须为数据挖掘主题做一个类项目。我的主题将是挖掘stackoverflow的趋势主题数据。学校项目的AWS如何进行数据挖掘？

因此，我从here下载了数据，但数据集非常庞大（posts.xml大小为3GB），我无法在我的机器上处理它。

那么，你有什么建议，正在为AWS的数据处理做一个好的选择或不值得吗？

我在AWS上没有任何经验，所以AWS如何帮助我完成学校项目？你会怎么做呢？

UPDATE 1

所以，我的数据处理将在3个阶段：
1。转换XML（从so.com转储）到.ARFF（对于WEKA罐），
2.矿在weka中使用算法的数据，
3.将输出转换为GraphML格式，将由prefuse库读取以供可视化。

那么，AWS在哪里适合这里？我支持有在AWS两种功能，它可以帮助我：
1. EC2和
2.弹性MapReduce，
但我不知道的MapReduce工作原理和如何我可以用它在我的项目。我可以吗？

2010-10-22 zengr

您可以认为EC2（您将用于做实际计算的AWS的一部分）只不过是以编程方式或通过简单的Web界面租用计算机的方式。如果你需要很多机器并且打算短时间使用它们，那么AWS可能对你有好处。但是，没有魔力。您仍然必须选择正确的软件来安装它们，将数据加载到EBS卷或S3以及所有其他无聊的细节中。

另请注意，EC2实例和存储相对较贵。如果你真的拥有机器/磁盘并使用它3年，准备支付5-10倍的费用。

关于您的问题，我真诚地怀疑一台现代计算机无法处理3千兆字节的xml文件。实际上，我只是在我的工作站上索引了SOLR中所有堆栈溢出的posts.xml，并且它们都是顺风顺水。你使用类SAX解析器吗？如果不是，那将比所有的云服务结合起来更有帮助。

2010-10-22 08:49:59 drxzcl

是不是所有的数据和应用程序都在关机后从EC2中清除？ – zengr 2010-10-22 08:52:09

不一定。如果在EBS上有根文件系统的实例，则在实例关闭后文件系统将保留。如果你在其上设置了正确的标志（需要检查文档名称），文件系统会在实例终止后保留。 – drxzcl 2010-10-22 08:56:23

显然，即使实例未运行，您仍需为您存储在EBS卷上的每GB-mnn的任何数据收费。 – drxzcl 2010-10-22 12:10:37

听起来像是一个有趣的项目，或者至少是接触新技术的很好的借口 - 我希望在我上学的时候会有类似的东西。

在大多数情况下，AWS为您提供一个准系统服务器，所以显而易见的问题是，您是否决定要如何处理数据？例如。 - 你只是想在.xml上运行一个shell脚本，或者你想使用hadoop等吗？

AWS的美妙之处在于，您可以根据需求获得所需的所有容量。例如，在你的情况下，你可能不需要多个实例只是一个强壮的实例。如果您只需要服务器几个小时，您就不必为整月或甚至一周的根服务器付费。

如果您让我们更多地了解您想要如何处理数据，也许我们可以进一步提供帮助。

2010-10-24 12:30:46 Till

更新了我的答案。 – zengr 2010-10-24 20:12:20

回答