2

我很想找到一个数据集,如“英语相关性判断文件列表”: http://trec.nist.gov/data/qrels_eng(查询,文档相关性)免费数据集构建信息检索系统

此数据集包含一个标记,对查询和文件。 然而,它依赖于非自由文集,名为“数据 - 英文文档”: http://trec.nist.gov/data/docs_eng.html

你知道任何免费的数据集(S)类似的这一个?

旁注:该数据集将用于建立基于神经网络的信息检索系统的研究项目。

回答

6

你在你的问题中混淆了几个TREC集合。 ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是独立的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,这些不属于文档集分布。

有几十个不同的TREC文本检索测试集合。可用的集合在TREC数据页面(trec.nist.gov/data.html)上列出,它们是由创建它们的TREC轨道组织的。它们以这种方式组织,因为集合通常用于支持检索问题该轨道是为了支持而设计的。

一般来说,查询和相关性判断可以直接从TREC网站下载。通常必须购买这些文件集:文件集要么受原始来源的版权保护,并且必须获得许可,否则与收集/分发文件集相关的其他重要费用。如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管这不是今年的选项)。一些文件集是免费的,但大多数仍需要签署数据使用协议。 Genomics跟踪有一项特别搜索任务,其文档集根据数据使用协议是免费的。见http://trec.nist.gov/data/genomics.html

格拉斯哥大学保留一个页面,指向其他可用的测试集合,其中一些是免费的,位于http://ir.dcs.gla.ac.uk/resources/test_collections/。其中大部分是TREC之前(1992年以前)的收藏品,按照今天的标准来看,这些收藏品是非常小的。 (“微小”,如你可能会发现文件评审高度怀疑只小集合表现出的结果。)

埃伦·沃里斯, TREC项目经理, NIST

+0

非常感谢,这正是我想要的。我已经改变了集合的错误名称。对于我来说,我只是在寻找一个初始语料库,这些语料库在不同的论文中被引用来测试我的方法与其他方法。之后,我将使用更大的集合。 再次感谢:)。 – AHS