scrapy-spider

    2热度

    1回答

    DOM树中实际不存在伪元素(例如::before或::after)中的内容。所以,通过选择器找到它是不可能的。 问题是,我怎么能提取它的内容?例如: <div>This is <span></span>n apple.</div> ... span::before { content : "a" } shows : This is an apple. 但如果我提取div的文

    2热度

    1回答

    我已经浪费了几天,让我的周围Scrapy脑海之后CrawlSpider停止,阅读文档等Scrapy博客和Q &一个......现在我即将做什么男人最讨厌:问为方向;-)问题是:我的蜘蛛打开,获取start_urls,但显然没有与他们做任何事情。相反,它立即关闭,就是这样。显然,我甚至没有看到第一个self.log()语句。 到目前为止,我已经得到了这是什么: # -*- coding: utf-8

    0热度

    1回答

    此卷曲有效。 https://user:[email protected]/v1/convert_from.json/?from=1000000&to=SGD&amount=AED,AUD,BDT&inverse=True 但是这个Scrapy请求不起作用。 yield scrapy.Request("https://justanalyticspteltd65986537:[email pro

    0热度

    1回答

    我想从马来西亚政府债券网站(http://bondinfo.bnm.gov.my/portal/server.pt)的一些数据。 需要去: 首页>市场活动>历史>历史的证券成交量 这与表开辟了新的一页。 点击从该表MGS,然后应用过滤器当月和废料从被过滤掉的搜索中的所有数据。 会很高兴,如果有人可以帮助我了解如何可以做到这一点。

    -1热度

    1回答

    我想建立一个蜘蛛来抓取使用python的scrapy框架在纽约理工学院的课程数据......以下是我的蜘蛛(nyitspider.py)。有人可以告诉我我哪里错了。 from scrapy.spiders import CrawlSpider, Rule, BaseSpider, Spider from scrapy.linkextractors.lxmlhtml import LxmlLink

    0热度

    1回答

    网址我试图刮:https://www.uvic.ca/BAN1P/bwckschd.p_disp_dyn_sched 有3页共,第一页选择长期,第二页选择主题,页面与实际课程信息。 我遇到的问题是,一旦主题()调用课程()回调在被写入文件response.body的HTML是主题页面,而不是课程的HTML页。我怎么能告诉我发送正确的表格数据,以便我收到正确的答复? # term(): # Sel

    0热度

    2回答

    <div id="job_14" class="job"> <a target="_blank" href="https://www.indeed.com/viewjob?t=Associate+Network+System&c=Las+Vegas+Valley+Water+District&l=Las+Vegas%2C+NV&jk=a22e9d1fa81ca

    1热度

    1回答

    我想抓取这个网站,但得到'不支持:不支持的URL方案'':没有处理程序可用于该方案'这个错误。如果规则没有错,为什么会出现这个问题,你的建议是什么,请帮助我。非常感谢。 代码是在这里: from scrapy.spiders import CrawlSpider, Rule, BaseSpider from scrapy.linkextractors import LinkExtractor

    0热度

    1回答

    因此,假设我想写一个使用Facebook API计算网站每页上喜欢的蜘蛛。如果我导入请求库,我可以按照以下方式调用Facebook图形API。 import scrapy import json import requests API_KEY="KEY_GOES_HERE" class WebSite(scrapy.Spider): name = "website_page"

    1热度

    1回答

    我使用Python来下载谷歌艺术一个网页(如Portrait of Anthony Valabrègue),其中包含像斑点图片: <img src="blob:https://www.google.com/c8c0132a-1ab7-453b-844c-0aab6449af69"> 我怎样才能下载此图片?使用URL blob:https://www.google.com/c8c0132a-1a