scrapy

0热度

1回答

我想实现args进入蜘蛛的url。例如： scrapy crawl test -a url="https://example.com" 之后，我想自动采取start_urls并将其自动转换为domain_allowed。例如： domain_allowed = ['example.com'] 之后，我想举例通过刚刚字到mysql管道在那里创建表从domain_allowed的只用一句话例

0热度

1回答

Scrapy - 如何用标题中的项目键导出cvs文件

我不想使用-o命令导出csv，但是可以从我的scrapy脚本创建它。我的csv文件确实导出的项目，但我没有头。我想有一个标题对应我的项目的键。我如何用项目的键修复标题？我在几个论坛和教程中看到头文件必须在pipelines.py中定义。我用open_spiders尝试了不同的解决方案，但没有奏效。这里是我的pipelines.py代码： class CsvWriterPipeline(

0热度

2回答

scrapy如何计算所有300重定向

有没有一种方法可以在较小的代码中执行此操作？ spider.py ... handle_httpstatus_list = [301,302,303,305,307,308,400,403,404] ... item['redirects'] = 0 if response.status == 301 or response.status ==

0热度

1回答

如何在Scrapy中使用带密码的PROXY_LIST？

我需要使用不同的代理来避免被禁止。我读this question和this one 我把我的代理人在proxylist.txt http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port ，我把它在custom_settings cla

0热度

2回答

Scrapy返回多个项目

我是新来的Scrapy，我真的只是失去了如何在一个块中返回多个项目。基本上，我得到一个HTML标记，其中有一个引号，其中包含文本，作者姓名和有关该引用的一些标记的嵌套标记。这里的代码只返回一个报价，就是这样。它不使用循环来返回其余的。我一直在网上搜索几个小时，我只是绝望，我不明白。这里是我到目前为止的代码： Spider.py import scrapy from scrapy.loader

0热度

1回答

使用Scrapy抓取购物商店数据

我想抓取购物网站的价格，使用scrapy。考虑下面这段代码，从scrapy外壳为网站执行： response.xpath('//*[@id="content"]/div[2]/div/div/div[5]/div[1]').extract() 结果是这样的： [u'<div class="subcategory-title"><span class="placeholder"></span><

0热度

1回答

获取从GEO数据集搜索结果的URL链接使用分页

我想从搜索结果页中的每一篇文章的所有链接： https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer 但我有问题越来越下一页的URL。从<div class="pagination">，它说： <a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Nex

0热度

1回答

错误扭曲的模块在Python 3.6.3

当试图为Python 3.6.3它不断抛出特定错误安装扭曲： building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.co

0热度

1回答

将附加参数传递给scrapy.Request（）

其实我想将与特定网站相关的所有数据（文本，hrefs，图像）存储到一个文件夹中。为了做到这一点，我需要传递该文件夹的路径所有不同的解析function.So我想通过在scrapy.Request()这样这条道路作为额外kwargs： yield scrapy.Request(url=url,dont_filter=True, callback=self.parse,errback = self.e

-3热度

2回答

如何提取给定网站的社交信息？

我有一个网站的URL像www.example.com 我想收集这个网站的社会信息，如：facebook的网址（facebook.com/example），推特网址（twitter.com/example）等，如果可以在任何地方，在网站的任何页面。如何完成这个任务，建议任何教程，博客，技术..