我想知道是否有人试图用 SgmlLinkExtractor/CrawlSpider提取/关注RSS项链接。我无法得到它的工作...Scrapy - 关注RSS链接
我使用以下规则:
rules = ( Rule(SgmlLinkExtractor(tags=('link',), attrs=False), follow=True, callback='parse_article'), )
(记住具有RSS链接位于链接标签)。
我不知道如何告诉SgmlLinkExtractor提取的 文本()的链接,而不是搜索属性...
任何帮助是值得欢迎的, 在此先感谢
请你解释一下使用CrawlSpider规则和回调实现自定义链接提取的区别?我一直在努力寻找差异,并且在多次阅读文档之后...仍然没有任何结果。由于过去使用规则的不好经历,我会采用你的方法,但我只想知道原因。 T.I.A – romeroqj 2011-07-06 03:23:19
现在可以使用['''XMLFeedSpider'''](https://scrapy.readthedocs.org/en/latest/topics/spiders.html?highlight=rule#xmlfeedspider-example)。 – opyate 2013-04-19 12:15:52