web-crawler

    0热度

    2回答

    scrapy-redis框架,redis存储xxx:请求已被抓取完毕,但程序仍在运行,如何自动停止程序,而不是一直在运行? 运行代码: 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-08-07

    1热度

    1回答

    对于我的论文,我做多页,单页设计之间的比较。我想比较的有多少网站使用统计他们 有没有办法找到这些信息?或者我是否必须爬行才能找到像Alexa 100万个网站这样的网站?即使使用爬行方法,您如何确定MPA/SPA? 有没有发现这更好的办法?

    0热度

    1回答

    我在Scrapy + Splash中有一个可用的爬虫。它在许多页面上启动了一个蜘蛛。每个页面都包含一个链接列表。对于每一页蜘蛛下载的页面,然后,一些页面链接(不递归)。所有页面都保存在文件系统上。该系统完美无瑕。目前我正在重构它来添加一些数据库交互。 我没有使用物品,也没有物品管道。 使用它们有什么好处? 添加一些信息: 我的抓取工具的目的是下载整个页面(以html,png或使用库转换为txt)。

    0热度

    1回答

    ,下面的错误在控制台中显示出来失败:PERMISSION_DENIED (节点:12540)UnhandledPromiseRejectionWarning:未处理的承诺拒绝(拒绝ID:1):错误:PERMISSION_DENIED:权限被拒绝 var firebase = require("firebase"); var config = { apiKey: "AIzaSyCJyak

    1热度

    1回答

    基于Alvin Bunk文章link to article我想创建一个web-cralwer,它登录到一个网站然后提交一个表单。 我的问题是,在该网站上有一个Ajax块,在单击和空链接后生成一些输入,我需要填写,所以我需要点击某个空链接或手动插入输入。 我改变了下面的代码在很多方面,试图使其工作,但对访问功能我被困 我得到未捕获的错误:空调用一个成员函数访问() <?php require 'v

    1热度

    1回答

    我想刮一个网站。它有下拉菜单。在下拉菜单中没有选择任何内容时,搜索按钮将变为灰色/不可点击。按钮的源代码是这样的: <br> <span class="search search-disabled" id="by_item">Search</span> <span class="reset search-disabled" id="reset_item">Reset</span> <div

    0热度

    1回答

    java.net.SocketException: Software caused connection abort: recv failed at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(Unknown Source) at java.net

    0热度

    1回答

    我在多个TYPO3实例(配置和TYPO3版本[7.6.20]总是相同)上配置了搜寻器(版本5.1.3)。有时它的工作,有时我有这个问题: 毕竟Configurations所有我想要开始在Web - >信息 - > Site Crawler - >开始爬行爬网。 当我在pagetree中选择一个页面并点击:然后它加载10 - 15分钟,我得到一个服务器错误(500)。 这使得无法使用爬虫爬取页面。

    0热度

    2回答

    我在提取中文文本并将其写入文件时遇到了问题。 str = "全球紧张致富豪财富缩水 贝索斯丁磊分列跌幅前两位"; f=open('test.txt','w'); f.write(str); 上面的代码运行良好。同时在下面的代码中写入文件以显示乱码。 import requests; from bs4 import BeautifulSoup f=open('data.txt','w'

    0热度

    1回答

    所以我想用node.js x-ray抓取框架来抓取一些内容。虽然我可以从单个页面获取内容,但仅供一名员工使用,但无法让我了解如何获得所有员工。 工作为例,但返回我的第一个员工: const request =require('request'); const Xray=require('x-ray'); var x = Xray(); x('http://www.viadeo.com/fr/