scrapy-spider

0热度

1回答

为了达到最优化的目的，我需要我的蜘蛛跳过曾经超时的网站，并且不要让scrapy查找它并一次又一次地尝试。这是如何实现的？谢谢。

2热度

1回答

我正在制作这个site的玩具履带，以改善scrapy。因此，在scrapy壳我想： In [1]: for e in response.css('meta.keywords').extract(): ...: print(e) Out: <meta class="keywords" itemprop="keywords" content="abilities,choices">

0热度

2回答

Scrapy归国NotImplementedError

我跑在Hostelworld.com以下scrapy蜘蛛，检索：大陆，在第一页上发展中国家和网址的从一个给定的城市名单运行它的时候，我无法找到一个SOLUT已经遵循了国家URL def parse_page1(self, response): for sel in response.xpath('//li[@class="accordion-navigation"]//ul[@cla

0热度

1回答

Python Scrapy获取HTML <script>标签

我有一个项目，我需要在html代码中获取脚本。 <script> (function() { .../More Code Level.grade = "2"; Level.level = "1"; Level.max_line = "5"; Level.cozum = 'adım 12\ndön sağ\nadım 1

0热度

2回答

Scrapy消毒url链接

我试图从一个网页获取数据，在那里我跟踪你的所有链接。网页的建模很糟糕，页面某些部分的链接在链接之前和之后都包含空格，所以scrapy随之而来，您的Web服务器使用301创建循环重定向。我试图过滤链接的URL，但它是不可能的，总是返回空格或符号+。代码 def cleanurl(link_text): print "original: ", link_text print "f

-1热度

1回答

Python Scrapy不解析所有项目

我正在尝试为电子商务网站构建一个简单的scrapy爬虫。它遵循链接，似乎找到所有需要的XPath元素。但是，由于某种原因，它只能解析1200个项目而不是1531个项目，就像它有某种限制。我试过切换选择器，甚至模拟硒在下一页点击没有成功。这里充满履带代码： import scrapy from scrapy.loader import ItemLoader from scrapy.craw

0热度

1回答

如何使用Scrapy获得第二页的内容以用于下面的场景？

我有一个蜘蛛需要获取一个对象数组，其中每个对象有5个项目。 4个项目在同一页上，第5个项目是我需要从中提取数据并将所有5个项目作为文本返回的URL。在下面的代码片段中，解释是关键在于其他页面。我需要解析它并在产生它的同时将其数据与其他属性一起添加。我当前的解决方案导出为JSON文件时显示如下。正如你注意到的，我的“e”没有解决。我如何获取数据？ [ { "q": "How

0热度

1回答

Python的Scrapy：登录到一个网站，然后刮

我想尝试一些新的练习网络报废。我正尝试在网站上登录，然后刮取特定项目。我已经为此构建了此代码，但它不起作用。我使用scrapy.FormRequest登录，用什么我从文件读取到目前为止，我有以下代码设置： class HomelyspiderSpider(scrapy.Spider): name = "homelyspider" allowed_domains = ["hom

2热度

1回答

为所有scrapy蜘蛛编写函数

所以我试图编写可以从所有scrapy蜘蛛调用的函数。在我的项目中，我可以定义这些函数还是需要将它们导入每个蜘蛛中？感谢

0热度

2回答

Scrapy蜘蛛没有收集数据的第一页，每个页面上的第一项可能不是正确的

这个蜘蛛将标题从Funny subreddit页面中删除。我想这个问题可能与允许的网址，因为/有趣的主页不符。如果我将'/ r/funny /'添加到允许的列表中，它会变得疯狂并且抓取太多。此外，并非一定要从每个页面有误作的第一个项目是什么（有时可能是前面的页面上的最后一个项目。 from scrapy.spiders import CrawlSpider, Rule from scrapy.