web-crawler

0热度

1回答

这是我第一次使用网络抓取的经验，我不知道我是否做得好。关键是我想同时抓取和抓取数据。得到所有我会刮掉商店他们到MongoDB的链接访问逐一刮其内容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web

0热度

1回答

scrapy爬虫在爬行时显示错误

我想抓取优惠券网站的优惠券，但是当我试图运行爬虫它显示error.Please帮助。谢谢。 import scrapy from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.spider import BaseSpider class CuponationSpi

1热度

1回答

有没有办法将文本（链接）添加到原始数据？

我正在爬取一些网站。链接不正确。该页面未打开。所以我想添加一个链接到原始数据或者，也许有一个更好的办法，比我想的。请让我知道，如果有一个很好的方式 -Ex- [一个错误的地址] /qna/detail.nhn?d1id=7 & DIRID = 70111 &的docId = 280474152 [你想要的文字添加] 我想将一个地址添加到我的代码前端（＃公告网址）的Http：//〜na

-3热度

2回答

与蟒蛇

https://plus.google.com/s/casasgrandes27%40gmail.com/top 我需要抓取与蟒蛇以下页面，但我需要它的HTML链接没有的通用源代码爬行后如何获得的HTML代码。例如打开链接：plus.google.com/s/casasgrandes27%40gmail.com/top而不登录第二最后一个缩略图将“G套件”。 <div class="Wbuh5

0热度

2回答

PHP GOUTTE尝试和重试

我需要从一个网站抓取一些数据。一些原因目标服务器，一些爬行能不能成功，需要retry.The代码如下： private function fetchArchive($id) { $url = 'xxxx/' . $id; $attempt = 0; $base = null; if (Goutte::request('GET', $url)->fi

1热度

2回答

多线程处理？

当我试图让我的剧本多线程，我发现了多，我不知道是否有一种方法，使与线程多处理工作？ CPU 1 - > 3个线程（工人A，B，C） CPU 2 - > 3个线程（工人d，E，F） ... 林试图自己做，但我遇到了很多问题。有没有办法使这两个工作在一起？

0热度

1回答

抓取多个页面与Scrapy

目的为了与Scrapy和Python两个深层次的网络爬虫。问题该网站是在1页，则存在履带是继链路，并提取正确的数据大约10个项目的结构。问题是这个结构对于10个页面是递归的，但是这些最后页面的链接是变化的并且注释指向home1，但是指向home2。对于第2页到第10页，我们希望爬虫执行相同的例程，因为抓取工具所遵守的模式对于这些页面是递归重复的。网站结构 ->website.com --

0热度

1回答

使用Scrapy-splash导航动态页面

背景：我正在使用Scrapy从http://shop.nordstrom.com/c/mens-tshirts中抓取和刮取产品数据。该页面是动态生成的，所以我使用Scrapy-Splash来处理JavaScript。问题是，单击页面底部的“下一步”按钮是进入后续产品页面的唯一方法。如果您复制第2页的该网址并将其粘贴到新标签中，则该网页上没有任何产品。为了解决这个问题，我尝试使用Selenium中

-1热度

2回答

检索数据时缺少信息

我想使用R抓取XXX中与AlphaGo相关的所有新闻（标题，网址和文本），并且网页url为http://www.xxxxxx.com/search/?q=AlphaGo。这里是我的代码： url <- "http://www.xxxxxx.com/search/?q=AlphaGo" info <- debugGatherer() handle <- getCurlHandle(cookiej

0热度

1回答

任何描述性教程或通过apache solr抓取网页的明确指导6.6

我在this question page上读到，solr 5+支持网络抓取，这意味着我们不再需要nutch。是否有任何示例或说明来解释如何设置solr 6.6抓取一组远程网站？