scrapy

    1热度

    1回答

    尝试使用scrapyd使用硒和webdriver进行抓取时,蜘蛛与命令“scrapy crawl myspider”当我部署使用scrapyd,最后用卷曲和scrapyd API安排它它触发意想不到的关键字参数“_job” 这里是我的蜘蛛代码 #!G:\python-2-7 import scrapy from scrapy.spider import BaseSpider from sel

    0热度

    1回答

    我想检索网页中存在的每个组合框的最大值,其中xpath。 下面是一个包含多种组合框与选择的样本HTML: <label> <span class="invisible_spoken">Some choice</span> <select class="select_class"> <option value="0">0</option> <option value="1" > 1 </o

    0热度

    1回答

    我试图从表格中抓取数据,但是表格数据似乎有相同的xpath。这里是表的一个例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而当我使用response.xpath('//td/text()').extract()它返回整个表。 我想也许我可以使用绝对路径,例如response.xpath('/

    0热度

    1回答

    我是Python新手,一般编码。我正试图通过Scrapy构建一个刮板。我正试图在Mac OS 10.12.6上做到这一点。我尽可能按照说明操作(https://doc.scrapy.org/en/latest/intro/tutorial.html),但是当我拨打 scrapy start项目教程我在下面得到以下输出。解决这个问题并理解未来错误消息的最好方法是什么? 谢谢! File "/usr/

    0热度

    1回答

    我有一个使用链接提取器来移动分页和解析详细信息页面的一个刮板,一切工作正常。示例代码如下: class SampleSpider(CrawlSpider): name = 'sample' start_urls = ['https://www.some-pagination-page.com'] rules = ( Rule(LinkExtractor(r

    0热度

    2回答

    我使用Scrapy将一些JSON数据报废为名为“wotd-page-one.json”的文件。 JSON数据包含一些西班牙语单词,重音字母被转换为Unicode。我想加载这些数据并在同一个目录下使用python脚本进行制作。我正尝试将这些数据加载到列表中以分别处理每个JSON密钥和值。但是,由于我没有使用Unicode和JSON的丰富经验,所以我很难做到这一点。任何人都可以请帮助我找到一种方法,使

    0热度

    1回答

    我试图在Scrapy蜘蛛中使用urlparse.urljoin来编译一个url列表。目前,我的蜘蛛没有返回,但没有发现任何错误。所以我试图检查我是否正确地编译了这些URL。 我的尝试是使用str.join在闲置测试,如下图所示: >>> href = ['lphs.asp?id=598&city=london', 'lphs.asp?id=480&city=london', 'lphs.asp

    1热度

    1回答

    我是新与scrapy,这是我第二次蜘蛛: class SitenameScrapy(scrapy.Spider): name = "sitename" allowed_domains = ['www.sitename.com', 'sitename.com'] rules = [Rule(LinkExtractor(unique=True), follow=True)

    -1热度

    1回答

    我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取: https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TY

    0热度

    1回答

    我有一只蜘蛛(下图),我希望能够每10天左右通过一次Cron作业来运行它,但是,每次我第一次运行它时都会运行它。它重写字段,而不是仅将项目追加到CSV中的相应字段。我该如何做到这一点,以便无论我运行多少次,顶部只有一组字段标题,并且下面的所有数据都包含在其中。 import scrapy class Wotd(scrapy.Item): word = scrapy.Field()