2017-02-22 56 views
0

我正在构建一个scrapy蜘蛛,用于检查网上商店中是否有某些产品的库存。从PHP/Delphi调用scrapy参考​​列表

这个想法是从PHP/Delphi代码中调用这个蜘蛛,传递一个产品列表(3500个参考文献)。然后,蜘蛛会返回另一个包含股票信息的列表。

这是我的蜘蛛:

import scrapy 
from scrapy.crawler import CrawlerProcess 


class Spider(scrapy.Spider): 
    name = "Spider" 
    start_urls = ['https://www.url.net/Administration/Account/Login'] 

    def parse(self, response): 
     return scrapy.FormRequest.from_response(
      response, 
      formdata={'UserName': 'username', 'Password': 'password'}, 
      callback=self.after_login 
     ) 

    def after_login(self, response): 
     yield scrapy.Request(url="https://www.url.net/Home/Home/ShowPriceDetail?articleNo=" + REFERENCE, callback=self.parse_stock) 

    def parse_stock(self, response): 
     print("STOCK" + response.selector.xpath('//*[@id="priceDetails"]/form/div[8]/div[1]/span/span[2]/text()').extract_first()) 
     print("Date" + response.selector.xpath('//*[@id="priceDetails"]/form/div[8]/div[1]/span/span[1]/i/@style').extract_first()) 

所以...什么是这样做的正确方法?我知道,你可以传递参数使用类似蜘蛛:

def __init__(self, product=None, *args, **kwargs): 
     super(Spider, self).__init__(*args, **kwargs) 

而且我知道,你可以从另一个Python脚本CrawlerProcess执行蜘蛛。另外,我知道,你可以使用从PHP调用一个python脚本:

<?php 

$command = escapeshellcmd('/home/myscript.py'); 
$output = shell_exec($command); 
echo $output; 

?> 

但我不知道如何合并所有这些方法...提前

感谢。

回答

1

您必须使用一些数据存储来传输数据。
因此,在您的其他编程语言中,您可以将您拥有的数据保存在某个文件或数据库中,例如csv或json,然后通过命令参数将文件名传递给scrapy spider。最后在你的蜘蛛中,你可以迭代文件内容来生成请求。

例如,如果我们有这样的json:

{ "items": [ 
    { "url": "http://example1.com" }, 
    { "url": "http://example2.com" } 
]} 

我们会使用这样的:

class MySpider(scrapy.Spider): 
    name = 'myspider' 

    def __init__(self, *args, **kwargs): 
     super(self, *args, **kwargs) 
     self.filename = kwargs.get('filename', None) 

    def start_requests(self): 
     if not self.filename: 
      raise NotImplementedError('missing argument filename') 
     with open(self.filename, 'r') as f: 
      data = json.loads(f.read()) 
     for item in data['items']: 
      yield Request(item['url']) 
+0

谢谢您的回答Granitosaurus。我喜欢这个主意。我有另一个问题,也许你知道答案:) http://stackoverflow.com/questions/42416020/scrapy-performance 谢谢! –