scrapy

    0热度

    1回答

    我想实现args进入蜘蛛的url。例如: scrapy crawl test -a url="https://example.com" 之后,我想自动采取start_urls并将其自动转换为domain_allowed。例如: domain_allowed = ['example.com'] 之后,我想举例通过刚刚字到mysql管道在那里创建表从domain_allowed的只用一句话例

    0热度

    1回答

    我不想使用-o命令导出csv,但是可以从我的scrapy脚本创建它。 我的csv文件确实导出的项目,但我没有头。 我想有一个标题对应我的项目的键。 我如何用项目的键修复标题? 我在几个论坛和教程中看到头文件必须在pipelines.py中定义。 我用open_spiders尝试了不同的解决方案,但没有奏效。 这里是我的pipelines.py代码: class CsvWriterPipeline(

    0热度

    2回答

    有没有一种方法可以在较小的代码中执行此操作? spider.py ... handle_httpstatus_list = [301,302,303,305,307,308,400,403,404] ... item['redirects'] = 0 if response.status == 301 or response.status ==

    0热度

    1回答

    我需要使用不同的代理来避免被禁止。 我读this question和this one 我把我的代理人在proxylist.txt http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port ,我把它在custom_settings cla

    0热度

    2回答

    我是新来的Scrapy,我真的只是失去了如何在一个块中返回多个项目。 基本上,我得到一个HTML标记,其中有一个引号,其中包含文本,作者姓名和有关该引用的一些标记的嵌套标记。 这里的代码只返回一个报价,就是这样。它不使用循环来返回其余的。我一直在网上搜索几个小时,我只是绝望,我不明白。这里是我到目前为止的代码: Spider.py import scrapy from scrapy.loader

    0热度

    1回答

    我想抓取购物网站的价格,使用scrapy。考虑下面这段代码,从scrapy外壳为网站执行: response.xpath('//*[@id="content"]/div[2]/div/div/div[5]/div[1]').extract() 结果是这样的: [u'<div class="subcategory-title"><span class="placeholder"></span><

    0热度

    1回答

    我想从搜索结果页中的每一篇文章的所有链接: https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer 但我有问题越来越下一页的URL。从<div class="pagination">,它说: <a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Nex

    0热度

    1回答

    当试图为Python 3.6.3它不断抛出特定错误安装扭曲: building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.co

    0热度

    1回答

    其实我想将与特定网站相关的所有数据(文本,hrefs,图像)存储到一个文件夹中。为了做到这一点,我需要传递该文件夹的路径所有不同的解析function.So我想通过在scrapy.Request()这样这条道路作为额外kwargs: yield scrapy.Request(url=url,dont_filter=True, callback=self.parse,errback = self.e

    -3热度

    2回答

    我有一个网站的URL像www.example.com 我想收集这个网站的社会信息,如:facebook的网址(facebook.com/example),推特网址(twitter.com/example)等,如果可以在任何地方,在网站的任何页面。 如何完成这个任务,建议任何教程,博客,技术..