web-crawler

1热度

1回答

我是scrapy和python的新手，我很难理解流程。我不知道在哪里放置“爬到下一页”功能。我不知道它是否应该来后，我回调parse_data或在parse_data函数它自我脚本逻辑：类别中的类别，刮类别中的所有页面。选项1： import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'

0热度

1回答

如何在Google上进行网络抓取

我的要求是通过在线搜索关键字来对给定关键字进行报告。我的计划是，我的WebCrawler将在谷歌搜索或谷歌，必应和雅虎返回网站的冰或雅虎打开网页/链接关键字使用使报告这些页面。因为我想做一个规则服从webcrawler。所以，当我看到这些网站的robots.txt我才知道，搜索引擎已经封锁了WebCrawler的搜索关键字，如 google.com/robots.txt User-age

0热度

1回答

scrapy从多个站点获取值

我试图从一个函数传递一个值。我查了文档，只是不明白。 REF： def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/some_page.html",

0热度

1回答

中的R - 与rvest爬行 - 用失败HTML_TEXT使用rvest功能

url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392" hh = read_html(GET(url),encoding = "EUC-KR") #guess_encoding(hh) html_text(html_node(hh, 'div.par')) #html

0热度

1回答

scrapy如何从miltiable来源的收益

前几天我问这个：scrapy getting values from multiple sites ，我已经学会了如何从WEBSITE1传递价值WEBSITE2。这让我从这两个网站的收益率信息，这不能解决，当我有10个不同的网站。我可以保持从函数传递值到函数，但它似乎是愚蠢的。更有效的方法是将信息接收到解析函数并从那里产生。这里是我想要实现的伪代码。 import scrapy class

0热度

1回答

Scrapy检测Xpath是否存在

我一直在试图制作我的第一个抓取工具，并且已经创建了我所需要的（获得1º商店和2º商店的货运信息和价格），但使用2个抓取工具而不是1个，这里有一个大瓶子。当there'are超过1个店输出的结果是： In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

0热度

3回答

抓取时YouTube的重复结果

我试图从google获取结果并将它们保存到文件中。但结果正在重复。当我将它们保存到文件时，只有最后一个链接被打印到文件。 require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/videohp') google_form = page.fo

-1热度

1回答

如何将iPython笔记本的整个输出保存为.txt文件？

我已经写了一个程序，在IPython的笔记本从Twitter抓取数据。该程序提供了大量的数据流作为输出，我想将这个输出保存为.txt文件。我该怎么做？当我打开我的终端，我可以很容易地做到这一点的：蟒蛇myfile.py> file.txt的如何做IPython的笔记本是一回事吗？

0热度

1回答

Ruby抓取网站，添加网址参数

我试图抓取一个网站，追加一个URL参数到每个地址之前击中他们。这是我到目前为止有： require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end 但我想蜘蛛打所有页面并追加设置了一个param像这样： exampl

0热度

1回答

为什么是验证爬虫

从谷歌的支持网站所需的正向DNS - 验证Googlebot作为来电：运行使用的访问IP地址反向DNS查找从日志，主机命令。确认域名位于 googlebot.com或google.com在域名域名上使用检索到的域名上的host命令运行正向DNS查找。验证它是否与原始访问IP 地址的日志相同。我的问题是为什么正向DNS查找是必需的？攻击者可以创建一个形式为crawl-xx-xx-xx-x