获取维基共享资源照片的深层链接

我希望从维基共享资源中获取全文网址。举例来说，我想从File:Trittin, Jürgen-0126.jpg得到https://upload.wikimedia.org/wikipedia/commons/6/69/Trittin%2C_J%C3%BCrgen-0126.jpg。下面是HTML源：获取维基共享资源照片的深层链接

<div class="fullMedia"><a href="https://upload.wikimedia.org/wikipedia/commons/6/69/Trittin%2C_J%C3%BCrgen-0126.jpg" class="internal" title="Trittin, Jürgen-0126.jpg">Original file</a> &#8206;<span class="fileInfo">(1,996 × 3,000 pixels, file size: 2.2 MB, MIME type: <span class="mime-type">image/jpeg</span>)</span> 
</div>

因为我做的很多疑问，我宁愿一个轻量级的Unix工具解决了像BeautifulSoup这样的事情。还有一个API（commons.wikimedia.org/w/api.php?action=query&prop=imageinfo&titles=File:Trittin,_J%C3%BCrgen-0126.jpg&iiprop=url），但对我来说，作为一个简单的bash脚本JSON是一个强加！

我很高兴你能帮助我。

来源

2017-08-24 Darko Dordic

[tag：jq]简化了JSON的困境 –

使用curl和grep替换URL

File:

通过

Special:FilePath/

来源

2017-08-24 18:08:14 Cyrus

我劈：

curl -s https://commons.wikimedia.org/wiki/File:Trittin,_J%C3%BCrgen-0126.jpg | grep fullImageLink | grep -o 'http[^ ]*jpg'

来源

2017-08-24 18:09:06

正如其他人所说，你应该使用jq。

curl --silent 'https://commons.wikimedia.org/w/api.php?format=json&formatversion=2&action=query&prop=imageinfo&titles=File:Trittin,_J%C3%BCrgen-0126.jpg&iiprop=url' | jq --raw-output '.query.pages[0].imageinfo[0].url'

来源

2017-08-27 00:35:27 Tgr

获取维基共享资源照片的深层链接

回答

相关问题