web-crawler

    0热度

    1回答

    这是我第一次使用网络抓取的经验,我不知道我是否做得好。关键是我想同时抓取和抓取数据。 得到所有我会刮掉 商店他们到MongoDB的链接 访问逐一刮其内容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web

    0热度

    1回答

    我想抓取优惠券网站的优惠券,但是当我 试图运行爬虫它显示error.Please帮助。 谢谢。 import scrapy from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider class CuponationSpi

    1热度

    1回答

    我正在爬取一些网站。 链接不正确。 该页面未打开。 所以我想添加一个链接到原始数据 或者,也许有一个更好的办法,比我想的。 请让我知道,如果有一个很好的方式 -Ex- [一个错误的地址] /qna/detail.nhn?d1id=7 & DIRID = 70111 &的docId = 280474152 [你想要的文字添加] 我想将一个地址添加到我的代码前端( #公告网址) 的Http://〜na

    -3热度

    2回答

    https://plus.google.com/s/casasgrandes27%40gmail.com/top 我需要抓取与蟒蛇以下页面,但我需要它的HTML链接没有的通用源代码爬行后如何获得的HTML代码。 例如 打开链接:plus.google.com/s/casasgrandes27%40gmail.com/top而不登录第二最后一个缩略图将“G套件”。 <div class="Wbuh5

    0热度

    2回答

    我需要从一个网站抓取一些数据。一些原因目标服务器,一些爬行能不能成功,需要retry.The代码如下: private function fetchArchive($id) { $url = 'xxxx/' . $id; $attempt = 0; $base = null; if (Goutte::request('GET', $url)->fi

    1热度

    2回答

    当我试图让我的剧本多线程 , 我发现了多, 我不知道是否有一种方法,使与线程多处理工作? CPU 1 - > 3个线程(工人A,B,C) CPU 2 - > 3个线程(工人d,E,F) ... 林试图自己做,但我遇到了很多问题。 有没有办法使这两个工作在一起?

    0热度

    1回答

    目的 为了与Scrapy和Python两个深层次的网络爬虫。 问题 该网站是在1页,则存在履带是继链路,并提取正确的数据大约10个项目的结构。问题是这个结构对于10个页面是递归的,但是这些最后页面的链接是变化的并且注释指向home1,但是指向home2。对于第2页到第10页,我们希望爬虫执行相同的例程,因为抓取工具所遵守的模式对于这些页面是递归重复的。 网站结构 ->website.com --

    0热度

    1回答

    背景:我正在使用Scrapy从http://shop.nordstrom.com/c/mens-tshirts中抓取和刮取产品数据。该页面是动态生成的,所以我使用Scrapy-Splash来处理JavaScript。问题是,单击页面底部的“下一步”按钮是进入后续产品页面的唯一方法。如果您复制第2页的该网址并将其粘贴到新标签中,则该网页上没有任何产品。 为了解决这个问题,我尝试使用Selenium中

    -1热度

    2回答

    我想使用R抓取XXX中与AlphaGo相关的所有新闻(标题,网址和文本),并且网页url为http://www.xxxxxx.com/search/?q=AlphaGo。这里是我的代码: url <- "http://www.xxxxxx.com/search/?q=AlphaGo" info <- debugGatherer() handle <- getCurlHandle(cookiej

    0热度

    1回答

    我在this question page上读到,solr 5+支持网络抓取,这意味着我们不再需要nutch。是否有任何示例或说明来解释如何设置solr 6.6抓取一组远程网站?