我试图在维基百科上找到所有图像的完整列表,然后我可以将其过滤到公有领域。我已经下载从这里的SQL转储:在维基百科中查找和下载图像转储
http://dumps.wikimedia.org/enwiki/latest/
,并研究了DB模式:
我想我明白它,但是当我选择一个样本图像从一个维基百科页面我无法在垃圾箱中的任何地方找到它。例如:
http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG
我已经做了转储“图像”,“imagelinks”在grep和“页”寻找“Carrizo_2a.JPG”,它不是发现。
这些转储没有完成吗?我误解了结构?有一个更好的方法吗?
此外,要向前跳一步:在我筛选了我的列表后,我想下载一大批图像(数千)后,我看到一些提及我需要从网站的镜像中执行此操作以防止重载维基百科/维基媒体。如果对此也有任何指导,那将会有所帮助。
以下是显示相同症状的第二张图像的示例。我已经尝试了一堆,并没有找到一个单一的,但它是在转储。 http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg – 2013-04-05 21:54:42