2010-04-20 76 views
35

您是否知道有哪些大型数据集可用于免费/低成本的Hadoop实验? 任何指针/链接相关赞赏。免费使用Hadoop进行大型数据集实验

Prefernce:

  • ATLEAST一个GB的数据。

  • webserver的生产日志数据。

他们很少的,我发现迄今:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我们也可以运行我们自己的抓取工具来收集网站上的数据,例如维基百科?任何关于如何做到这一点的指针也是值得赞赏的。

+0

datanami最近公布的链接列表:HTTP://www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或许有人有时间将其转换为正确的答案。 – Nickolay 2015-02-02 23:03:57

回答

10

关于您关于抓取和维基百科问题的几点意见。

您已链接到wikipedia data dumps,您可以使用UMD的Cloud9项目在Hadoop中处理此数据。

他们的网页上有这样的:Working with Wikipedia

另一个数据源添加到列表是:

  • ClueWeb09 - - 2月09 5TB的压缩之间收集1名十亿的网页。

使用爬虫生成数据应该发布在另一个关于Hadoop/MapReduce的问题上,我会说。

+1

链接“使用维基百科”已死亡。这是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o 2012-08-31 16:10:38

10

一个明显的来源:the Stack Overflow trilogy data dumps。这些可以在Creative Commons许可下免费获取。

+0

@toddlermenot - 转储现在托管在Internet Archive上。我更新了链接。阅读它在[SE博客页面]上更改的原因(https://blog.stackexchange。COM/2014/01 /堆叠交换-CC-数据现在主办,由这互联网存档/)。 – APC 2015-08-09 09:42:13