我处理了几网,让我有到图像 绝对路径列表,用下面的代码:获取绝对路径的图像,而不是blank.gif
for img in images:
try:
if img["src"].startswith("http"):
abs_img_url = img["src"]
else:
abs_img_url = urljoin(url, img["src"])
except KeyError:
# src attribute does not exist
continue
问题是与这webpage,我会得到很多blank.gif
图像,虽然浏览器将显示其他文件,它存储在 img["data-original"]
属性。令人惊讶的是,Firefox检查员 在img["src"]
中显示正确的图像,但当您查看源 时,您在img["data-original"]
中看到它。
你能解释一下这个问题吗?你会如何对待它? 检测并下载正确的图像,而不是blank.gif
?
例如图像元件给予坏的结果:
<img alt="browser cache backend" class="lazy aligncenter size-full wp-image-57323" data-original="http://11986-presscdn-0-77.pagely.netdna-cdn.com/wp-content/uploads/2008/06/browser-cache-backend.jpg" height="190" itemprop="image" sizes="(max-width: 540px) 100vw, 540px" src="http://11986-presscdn-0-77.pagely.netdna-cdn.com/wp-content/themes/online-tech-tips-2013/images/blank.gif" srcset="http://11986-presscdn-0-77.pagely.netdna-cdn.com/wp-content/uploads/2008/06/browser-cache-backend.jpg 540w, http://11986-presscdn-0-77.pagely.netdna-cdn.com/wp-content/uploads/2008/06/browser-cache-backend-300x106.jpg 300w, http://11986-presscdn-0-77.pagely.netdna-cdn.com/wp-content/uploads/2008/06/browser-cache-backend-80x28.jpg 80w" width="540"/>