-1
运行scrapy爬虫程序时,我想在cmd窗口中看到输出结果。您可以在ide中运行此代码。如果你能帮助我,请提前致谢。运行scrapy爬虫程序,但无法输出,记录和损坏代码,如下所示:
登录如下:
https://i.stack.imgur.com/eJ4dK.png
https://i.stack.imgur.com/2J9xk.png
# -*- coding: utf-8 -*-
import scrapy
import re
from dangdang.items import DangdangItem
from scrapy.http import Request
class DangspdSpider(scrapy.Spider):
name = "dangspd"
allowed_domains = ["dangdang.com"]
start_urls = (
'http://category.dangdang.com/pg1-cid4002644.html'
)
def parse(self, response):
item = DangdangItem()
item["title"] = response.xpath("//a[@class='pic']/@title").extract()
item["num"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
yield item
for i in range(2,101):
url = "http://category.dangdang.com/pg"+str(i)+"-cid4002644.html"
yield Request(url,callback=self.parse)
的源代码:https://开头github.com/876309067/dangdang/tree/master/dangdang – xinsen
'start_urls'应该是你的代码中的'list'而不是'tuple',并且它不会被解析,因为它是被禁止的。 –
我更改为列表,但几乎没有抓取信息, 我认为这是因为他们的服务器拒绝访问 无论如何谢谢 – xinsen