scrapy-spider

2热度

1回答

DOM树中实际不存在伪元素（例如::before或::after）中的内容。所以，通过选择器找到它是不可能的。问题是，我怎么能提取它的内容？例如： <div>This is <span></span>n apple.</div> ... span::before { content : "a" } shows : This is an apple. 但如果我提取div的文

2热度

1回答

的Python/Scrapy：取start_urls

我已经浪费了几天，让我的周围Scrapy脑海之后CrawlSpider停止，阅读文档等Scrapy博客和Q &一个......现在我即将做什么男人最讨厌：问为方向;-)问题是：我的蜘蛛打开，获取start_urls，但显然没有与他们做任何事情。相反，它立即关闭，就是这样。显然，我甚至没有看到第一个self.log（）语句。到目前为止，我已经得到了这是什么： # -*- coding: utf-8

0热度

1回答

无法在Scrapy中使用带有用户名和密码的API

此卷曲有效。 https://user:[email protected]/v1/convert_from.json/?from=1000000&to=SGD&amount=AED,AUD,BDT&inverse=True 但是这个Scrapy请求不起作用。 yield scrapy.Request("https://justanalyticspteltd65986537:[email pro

0热度

1回答

Python的Scrapy：跟随链接，并提取数据从JavaScript表

我想从马来西亚政府债券网站（http://bondinfo.bnm.gov.my/portal/server.pt）的一些数据。需要去：首页>市场活动>历史>历史的证券成交量这与表开辟了新的一页。点击从该表MGS，然后应用过滤器当月和废料从被过滤掉的搜索中的所有数据。会很高兴，如果有人可以帮助我了解如何可以做到这一点。

-1热度

1回答

Crawlspider规则不起作用

我想建立一个蜘蛛来抓取使用python的scrapy框架在纽约理工学院的课程数据......以下是我的蜘蛛（nyitspider.py）。有人可以告诉我我哪里错了。 from scrapy.spiders import CrawlSpider, Rule, BaseSpider, Spider from scrapy.linkextractors.lxmlhtml import LxmlLink

0热度

1回答

问题得到过去的HTML表单与Scrapy

网址我试图刮：https://www.uvic.ca/BAN1P/bwckschd.p_disp_dyn_sched 有3页共，第一页选择长期，第二页选择主题，页面与实际课程信息。我遇到的问题是，一旦主题（）调用课程（）回调在被写入文件response.body的HTML是主题页面，而不是课程的HTML页。我怎么能告诉我发送正确的表格数据，以便我收到正确的答复？ # term(): # Sel

0热度

2回答

如何从<a>

<div id="job_14" class="job"> <a target="_blank" href="https://www.indeed.com/viewjob?t=Associate+Network+System&c=Las+Vegas+Valley+Water+District&l=Las+Vegas%2C+NV&jk=a22e9d1fa81ca

1热度

1回答

NotSupported：不支持的URL方案''：没有处理程序可用于该方案

我想抓取这个网站，但得到'不支持：不支持的URL方案''：没有处理程序可用于该方案'这个错误。如果规则没有错，为什么会出现这个问题，你的建议是什么，请帮助我。非常感谢。代码是在这里： from scrapy.spiders import CrawlSpider, Rule, BaseSpider from scrapy.linkextractors import LinkExtractor

0热度

1回答

调用外部API的最佳实践是什么？

因此，假设我想写一个使用Facebook API计算网站每页上喜欢的蜘蛛。如果我导入请求库，我可以按照以下方式调用Facebook图形API。 import scrapy import json import requests API_KEY="KEY_GOES_HERE" class WebSite(scrapy.Spider): name = "website_page"

1热度

1回答

img src = blob：如何下载图片？

我使用Python来下载谷歌艺术一个网页（如Portrait of Anthony Valabrègue），其中包含像斑点图片： <img src="blob:https://www.google.com/c8c0132a-1ab7-453b-844c-0aab6449af69"> 我怎样才能下载此图片？使用URL blob:https://www.google.com/c8c0132a-1a