2008-08-15 59 views
12

我一直在寻找大数据集来测试各种类型的程序。有没有人有什么建议?大数据集

回答

10

查看netflix contest。我相信他们公开了他们的数据库或者一大部分子集,以促进比赛。

更新:Their faq表示他们有1亿条可以下载的子集。

1

你可能想看看为Fuzz Testing生成随机数据。这会给你几乎无限量的测试数据,并且你更可能遇到边缘情况。

也许关于你想要什么样的测试数据,什么格式和什么类型的应用程序的更多信息?

1

我不知道你的目标平台是什么,但是如果你正在针对MSSQL数据库开发,请查看Visual Studio for Database Professionals。它具有非常酷的功能,可以使用您可以定义的数据计划为您的模式生成数据。

Redgate也有一个datageneration工具,但我没有使用它。

优点是您可以创建数据生成计划并使用它来用一致的大量数据填充数据库,这些数据可以被调整以测试模式的特定区域。

1

您可能还想看看Aaron Swartz的theinfo

从网站

这对于大型数据集和 爱他们的人谁网站:谁收集他们的刮刀 和爬虫,该 学者和爱好者谁处理它们, 设计师和艺术家 想象他们。这是一个地方,他们可以交换提示和技巧, 开发和共享工具, 开始整合他们特定的 项目。

2

我已经使用Wikimedia下载集做了一些工作,它们是巨大的XML文件。不幸的是,他们的下载服务器似乎目前有磁盘空间问题,所以很多数据集都不可用。但是,当它可用时,具有完整历史记录的整个英文维基百科数据集是2.8 TB(18 GB压缩)。

5

您可能需要查看美国统计协会data expo的数据 - 它是过去20年美国所有商业航班的航班详情--1.2亿条记录,11条数据。

2

许多del.icio.us用户(包括我自己)使用“publicdata”标签标记包含公共数据的页面。您可以找到该档案here并订阅该标签here的RSS订阅源。订阅Feed,您将看到一系列在网络上弹出的有趣数据集。

并非所有这些数据集都很大,但它们通常很有趣。

0

如果您对个性化数据类型感兴趣,请查看Kimono Labs。这是网络抓取软件,您可以使用任何网站免费刮没有行返回限制。只需在其上设置一个API(您可以使用它们的url生成器一次性删除一堆url),然后将您的个人数据集用作JSON,CSV或RSS。