Scrapy新手问题 - 无法获得教程文件的工作

我是Python和Scrapy的完全新手，所以我开始尝试复制教程。我正在试图根据教程刮掉www.dmoz.org网站。Scrapy新手问题 - 无法获得教程文件的工作

我撰写dmoz_spider.py如下文所示

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

from dmoz.items import DmozItem 

class DmozSpider(BaseSpider): 
    name = "dmoz.org" 
    allowed_domains = ["dmoz.org"] 
    start_urls = [ 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
    ] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//ul/li') 
     items = [] 
     for site in sites: 
      item = DmozItem() 
      item['title'] = site.select('a/text()').extract() 
      item['link'] = site.select('a/@href').extract() 
      item['desc'] = site.select('text()').extract() 
      items.append(item) 
     return items

什么我应该通过网站得到的是不同的东西。
任何想法我搞砸了？

来源

2010-12-16 racket99

什么我得到的是这个2010-12-16 18：42：29-0500 [scrapy] INFO：Scrapy 0.10.3开始（BOT：DMOZ） 2010-12-16 18：42：29-0500 [scrapy] DEBUG：启用扩展：TelnetConsole，SpiderCont 回溯（最近呼叫最后）：文件“c：\ Python27 \ Scripts \ scrapy”，第4行，在 execute（）文件“c：\ Python27 \ lib \ site-packages \ scrapy \ cmdline.py”，第130行，执行 _run_print_help（parser，_run_command，cmd，args，opts）文件“c：\ Python27 \ LIB \站点包\ SCR apy \ cmdline.py“，第96行，在_run_print_help func（* a，** kw）文件”c：\ Python27 \ lib \ site-packages \ scrapy \ cmdline.py“，行136 – racket99 2010-12-17 00:14:02

你粘贴的代码没有问题。问题必须在其他地方，你能粘贴你得到的整个输出吗？（您的评论停止在有趣的部分开始...）

来源

2010-12-24 04:59:10 Ptival

我有这个问题。确保您按照本教程中所述进行了以下更改。

打开items.py，看看你是否改变

类

class TutorialItem(Item): 
    title=Field() 
    link=Field() 
    desc=Field()

到：

class DmozItem(Item): 
    title=Field() 
    link=Field() 
    desc=Field()

来源

2012-08-30 02:11:38 DanG

你需要去的目录包含settings.py文件并运行

scrapy从那里爬行dmoz。

按照你的项目的结构对https://github.com/scrapy/dirbot为清楚起见

来源

2013-09-03 07:08:57 saurshaz

Scrapy新手问题 - 无法获得教程文件的工作

回答

相关问题