2014-09-28 87 views
2

最近,我一直在研究一个想法,该想法要求我查询Google图像并检索与该搜索词匹配的图像的链接。我最有希望使用Google图像API的候选人是Google Web Search API,但它看起来像将在明天停止服务: https://developers.google.com/web-search/docs/在不使用自定义搜索API的情况下检索Google结果

替换它的API是Google Custom Search API ,但它有点令人沮丧的使用:
Google API Custom Search with Python - Programmatic Search Results
100天的搜索结果是一个非常严格的限制;这只是每小时四次搜索。我也不想经过创建一个我永远不会使用的定制搜索栏的麻烦,除非通过Python

我决定直接从结果页面解析HTML。但是,这存在一个问题,因为无法在页面的HTML内部直接链接到图像,只有引荐网址。对于Google图片的启用javascript和禁用JavaScript的版本而言,情况确实如此(即使Python将spoofs javascript启用,也没有)。我不确定该从哪里出发。任何人都可以向我推荐一些我不知何故忽略的模糊,更新的图书馆,或者给我一些指点?

回答

1

您可以使用Selenium Webdriver实际执行JavaScript并单击缩略图视图中的图像。一旦图像被打开,链接就在DOM中,你可以从那里刮去它。所有Webdriver都会打开一个实际的浏览器并模拟一个用户。如果您使用,您甚至可以将其作为无头浏览器运行。缺点是即使那样,你也需要安装在服务器上的浏览器的所有依赖关系。

但是,谷歌违反他们的服务条款,他们会尽力阻止你的努力。因此,除非您通过验证码(链接到会话),否则在被阻止之前可能无法进行大量搜索。