您是否知道有哪些大型数据集可用于免费/低成本的Hadoop实验? 任何指针/链接相关赞赏。免费使用Hadoop进行大型数据集实验
Prefernce:
ATLEAST一个GB的数据。
webserver的生产日志数据。
他们很少的,我发现迄今:
我们也可以运行我们自己的抓取工具来收集网站上的数据,例如维基百科?任何关于如何做到这一点的指针也是值得赞赏的。
您是否知道有哪些大型数据集可用于免费/低成本的Hadoop实验? 任何指针/链接相关赞赏。免费使用Hadoop进行大型数据集实验
Prefernce:
ATLEAST一个GB的数据。
webserver的生产日志数据。
他们很少的,我发现迄今:
我们也可以运行我们自己的抓取工具来收集网站上的数据,例如维基百科?任何关于如何做到这一点的指针也是值得赞赏的。
关于您关于抓取和维基百科问题的几点意见。
您已链接到wikipedia data dumps,您可以使用UMD的Cloud9项目在Hadoop中处理此数据。
他们的网页上有这样的:Working with Wikipedia
另一个数据源添加到列表是:
使用爬虫生成数据应该发布在另一个关于Hadoop/MapReduce的问题上,我会说。
链接“使用维基百科”已死亡。这是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o 2012-08-31 16:10:38
一个明显的来源:the Stack Overflow trilogy data dumps。这些可以在Creative Commons许可下免费获取。
@toddlermenot - 转储现在托管在Internet Archive上。我更新了链接。阅读它在[SE博客页面]上更改的原因(https://blog.stackexchange。COM/2014/01 /堆叠交换-CC-数据现在主办,由这互联网存档/)。 – APC 2015-08-09 09:42:13
这是没有日志文件,但也许你可以使用来自OpenStreetMap的地球文件:http://wiki.openstreetmap.org/wiki/Planet.osm
CC许可证,约160 GB(解压缩)
有每个大洲也更小的文件:http://wiki.openstreetmap.org/wiki/World
这是189点的数据集的机器学习(这是Hadoop的克最好的应用之一)的集合: http://archive.ics.uci.edu/ml/datasets.html
datanami最近公布的链接列表:HTTP://www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或许有人有时间将其转换为正确的答案。 – Nickolay 2015-02-02 23:03:57