web-crawler

    1热度

    1回答

    我是scrapy和python的新手,我很难理解流程。我不知道在哪里放置“爬到下一页”功能。我不知道它是否应该来后,我回调parse_data或在parse_data函数它自我 脚本逻辑: 类别中的类别,刮类别中的所有页面。 选项1: import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'

    0热度

    1回答

    我的要求是通过在线搜索关键字来对给定关键字进行报告。 我的计划是,我的WebCrawler将 在谷歌搜索或谷歌,必应和雅虎 返回网站的冰或雅虎 打开网页/链接关键字使用使报告这些页面。 因为我想做一个规则服从webcrawler。所以,当我看到这些网站的robots.txt我才知道,搜索引擎已经封锁了WebCrawler的搜索关键字,如 google.com/robots.txt User-age

    0热度

    1回答

    我试图从一个函数传递一个值。 我查了文档,只是不明白。 REF: def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/some_page.html",

    0热度

    1回答

    url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392" hh = read_html(GET(url),encoding = "EUC-KR") #guess_encoding(hh) html_text(html_node(hh, 'div.par')) #html

    0热度

    1回答

    前几天我问这个:scrapy getting values from multiple sites ,我已经学会了如何从WEBSITE1传递价值WEBSITE2。这让我从这两个网站的收益率信息,这不能解决,当我有10个不同的网站。 我可以保持从函数传递值到函数,但它似乎是愚蠢的。更有效的方法是将信息接收到解析函数并从那里产生。 这里是我想要实现的伪代码。 import scrapy class

    0热度

    1回答

    我一直在试图制作我的第一个抓取工具,并且已经创建了我所需要的(获得1º商店和2º商店的货运信息和价格),但使用2个抓取工具而不是1个,这里有一个大瓶子。 当there'are超过1个店输出的结果是: In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

    0热度

    3回答

    我试图从google获取结果并将它们保存到文件中。但结果正在重复。 当我将它们保存到文件时,只有最后一个链接被打印到文件。 require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/videohp') google_form = page.fo

    -1热度

    1回答

    我已经写了一个程序,在IPython的笔记本从Twitter抓取数据。该程序提供了大量的数据流作为输出,我想将这个输出保存为.txt文件。我该怎么做?当我打开我的终端,我可以很容易地做到这一点的: 蟒蛇myfile.py> file.txt的 如何做IPython的笔记本是一回事吗?

    0热度

    1回答

    我试图抓取一个网站,追加一个URL参数到每个地址之前击中他们。这是我到目前为止有: require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end 但我想蜘蛛打所有页面并追加设置了一个param像这样: exampl

    0热度

    1回答

    从谷歌的支持网站所需的正向DNS - 验证Googlebot作为来电: 运行使用的访问IP地址反向DNS查找从日志, 主机命令。确认域名位于 googlebot.com或google.com在域名 域名 上使用检索到的 域名上的host命令运行正向DNS查找。验证它是否与原始访问IP 地址的日志相同。 我的问题是为什么正向DNS查找是必需的?攻击者可以创建一个形式为crawl-xx-xx-xx-x