scrapy-spider

    0热度

    1回答

    为了达到最优化的目的,我需要我的蜘蛛跳过曾经超时的网站,并且不要让scrapy查找它并一次又一次地尝试。 这是如何实现的? 谢谢。

    2热度

    1回答

    我正在制作这个site的玩具履带,以改善scrapy。因此,在scrapy壳我想: In [1]: for e in response.css('meta.keywords').extract(): ...: print(e) Out: <meta class="keywords" itemprop="keywords" content="abilities,choices">

    0热度

    2回答

    我跑在Hostelworld.com以下scrapy蜘蛛,检索: 大陆,在第一页上发展中国家和网址 的从一个给定的城市名单运行它的时候,我无法找到一个SOLUT已经遵循了国家URL def parse_page1(self, response): for sel in response.xpath('//li[@class="accordion-navigation"]//ul[@cla

    0热度

    1回答

    我有一个项目,我需要在html代码中获取脚本。 <script> (function() { .../More Code Level.grade = "2"; Level.level = "1"; Level.max_line = "5"; Level.cozum = 'adım 12\ndön sağ\nadım 1

    0热度

    2回答

    我试图从一个网页获取数据,在那里我跟踪你的所有链接。网页的建模很糟糕,页面某些部分的链接在链接之前和之后都包含空格,所以scrapy随之而来,您的Web服务器使用301创建循环重定向。 我试图过滤链接的URL,但它是不可能的,总是返回空格或符号+。代码 def cleanurl(link_text): print "original: ", link_text print "f

    -1热度

    1回答

    我正在尝试为电子商务网站构建一个简单的scrapy爬虫。 它遵循链接,似乎找到所有需要的XPath元素。但是,由于某种原因,它只能解析1200个项目而不是1531个项目,就像它有某种限制。 我试过切换选择器,甚至模拟硒在下一页点击没有成功。 这里充满履带代码: import scrapy from scrapy.loader import ItemLoader from scrapy.craw

    0热度

    1回答

    我有一个蜘蛛需要获取一个对象数组,其中每个对象有5个项目。 4个项目在同一页上,第5个项目是我需要从中提取数据并将所有5个项目作为文本返回的URL。在下面的代码片段中,解释是关键在于其他页面。我需要解析它并在产生它的同时将其数据与其他属性一起添加。 我当前的解决方案导出为JSON文件时显示如下。正如你注意到的,我的“e”没有解决。我如何获取数据? [ { "q": "How

    0热度

    1回答

    我想尝试一些新的练习网络报废。我正尝试在网站上登录,然后刮取特定项目。 我已经为此构建了此代码,但它不起作用。我使用scrapy.FormRequest登录,用什么我从文件读取到目前为止,我有以下代码设置: class HomelyspiderSpider(scrapy.Spider): name = "homelyspider" allowed_domains = ["hom

    2热度

    1回答

    所以我试图编写可以从所有scrapy蜘蛛调用的函数。 在我的项目中,我可以定义这些函数还是需要将它们导入每个蜘蛛中? 感谢

    0热度

    2回答

    这个蜘蛛将标题从Funny subreddit页面中删除。 我想这个问题可能与允许的网址,因为/有趣的主页不符。如果我将'/ r/funny /'添加到允许的列表中,它会变得疯狂并且抓取太多。此外,并非一定要从每个页面有误作的第一个项目是什么(有时可能是前面的页面上的最后一个项目。 from scrapy.spiders import CrawlSpider, Rule from scrapy.