scrapy

    0热度

    1回答

    我正在使用python scrapy获取用户评论评论,其中可能有多个页面,我需要点击“查看更多”才能看到更多评论。 这是链接到的网页我要爬网: https://en.drivy.com/car-rental/berlin/dacia-dokker-218119 我注意到,如果审查意见超过10个,我需要点击“查看更多”,以获得后续的评论链接。 我也注意到“查看更多”的URL链接是https://en

    0热度

    2回答

    <div class="date_info"> <p> <span> Start Date :</span> October 8, 2017 <br/> <span> End Date :</span> October 11, 2017 <br/> <span> Time : </span> 1:00 pm to 12:15 pm </p>

    -1热度

    2回答

    我是scrapy的新手,在这里我创建了一个使用亚马逊网址的蜘蛛无法获得输出到csv。 这里是我的代码: import scrapy class AmazonMotoMobilesSpider(scrapy.Spider): name = "amazon" start_urls = ['https://www.amazon.in/Samsung-Mobiles/b/ref=amb_link_

    0热度

    2回答

    我想根据网页的sitemap.xml创建一个抓取网址的蜘蛛。所以我没有start_urls。我想确定使用sitemap.xml刮掉哪些网址。 我曾考虑添加方法_parse_sitemap并使用requests和lxml解析它,但它可能是一种矫枉过正。 是否有一些内置方法可以获得<loc>标签中的所有url? 我迄今所做的: 蜘蛛得到一个URL和meta = {'sitemap':True}如此分析

    1热度

    1回答

    我让Scrapy抓取我的站点,找到404响应的链接并将它们返回给JSON文件。这工作得很好。 但是,我不知道如何获取该错误链接的所有实例,因为重复过滤器正在捕获这些链接,而不是重试它们。 由于我们的网站有成千上万的页面,这些部分由多个团队管理,我需要能够为每个部分创建一个坏链接报告,而不是找到一个报告并在整个网站上进行搜索替换。 任何帮助将不胜感激。 我目前的履带: import scrapy

    0热度

    1回答

    <div id="eventInfoContainer"> <table> <tbody><tr> <td class="verticalTop"> <script type="text/javascript"><!-- google_ad_client = "ca-pub-2475575566915822";

    -2热度

    1回答

    我试图用scrapy来提取网页中的数据......,所有的数据是内部一个javascript <script type="text/javascript"> // Globals var ANUNTURI = [ { "ID": "2750801", "Data": "Azi 11:16", "Zile_piata": "146", "Zona": "Andronache", "Nr_Came

    0热度

    1回答

    伙计! 我试图让整个网站的所有内部网址用于搜索引擎优化的目的,我最近发现了Scrapy来帮助我完成这项任务。但我的代码总是返回一个错误: 2017-10-11 10:32:00 [scrapy.core.engine] INFO: Spider opened 2017-10-11 10:32:00 [scrapy.extensions.logstats] INFO: Crawled 0 page

    2热度

    1回答

    我想重复地拖延使用不同延迟的相同URL。在研究这个问题后,似乎相应的解决方案是使用类似于 nextreq = scrapy.Request(url, dont_filter=True) d = defer.Deferred() delay = 1 reactor.callLater(delay, d.callback, nextreq) yield d 在解析。 但是,我一直无法做到这

    0热度

    1回答

    <div class="fullwidth singleCalender"><table border="0" cellpadding="4" cellspacing="0"> <tbody> <tr style="display: table-row;"> <th colspan="7" style="text-align: right; font-weight: normal; pa