免费使用Hadoop进行大型数据集实验

您是否知道有哪些大型数据集可用于免费/低成本的Hadoop实验？任何指针/链接相关赞赏。免费使用Hadoop进行大型数据集实验

Prefernce：

ATLEAST一个GB的数据。
webserver的生产日志数据。

他们很少的，我发现迄今：

我们也可以运行我们自己的抓取工具来收集网站上的数据，例如维基百科？任何关于如何做到这一点的指针也是值得赞赏的。

2010-04-20 Sundar

datanami最近公布的链接列表：HTTP：//www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或许有人有时间将其转换为正确的答案。 – Nickolay 2015-02-02 23:03:57

关于您关于抓取和维基百科问题的几点意见。

您已链接到wikipedia data dumps，您可以使用UMD的Cloud9项目在Hadoop中处理此数据。

他们的网页上有这样的：Working with Wikipedia

另一个数据源添加到列表是：

ClueWeb09 - - 2月09 5TB的压缩之间收集1名十亿的网页。

使用爬虫生成数据应该发布在另一个关于Hadoop/MapReduce的问题上，我会说。

来源

2010-04-22 22:17:04

链接“使用维基百科”已死亡。这是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html？ – f13o 2012-08-31 16:10:38

一个明显的来源：the Stack Overflow trilogy data dumps。这些可以在Creative Commons许可下免费获取。

来源

2010-04-20 11:25:12 APC

@toddlermenot - 转储现在托管在Internet Archive上。我更新了链接。阅读它在[SE博客页面]上更改的原因（https：//blog.stackexchange。COM/2014/01 /堆叠交换-CC-数据现在主办，由这互联网存档/）。 – APC 2015-08-09 09:42:13

这是没有日志文件，但也许你可以使用来自OpenStreetMap的地球文件：http://wiki.openstreetmap.org/wiki/Planet.osm

CC许可证，约160 GB（解压缩）

有每个大洲也更小的文件：http://wiki.openstreetmap.org/wiki/World

来源

2010-04-20 11:33:06 Olvagor

这是189点的数据集的机器学习（这是Hadoop的克最好的应用之一）的集合： http://archive.ics.uci.edu/ml/datasets.html

来源

2010-04-23 13:15:48