web-crawler

0热度

2回答

scrapy-redis框架，redis存储xxx：请求已被抓取完毕，但程序仍在运行，如何自动停止程序，而不是一直在运行？运行代码： 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-08-07

1热度

1回答

如何找出有多少网站使用多页设计或单页设计？

对于我的论文，我做多页，单页设计之间的比较。我想比较的有多少网站使用统计他们有没有办法找到这些信息？或者我是否必须爬行才能找到像Alexa 100万个网站这样的网站？即使使用爬行方法，您如何确定MPA/SPA？有没有发现这更好的办法？

0热度

1回答

Scrapy：为什么要使用管道？

我在Scrapy + Splash中有一个可用的爬虫。它在许多页面上启动了一个蜘蛛。每个页面都包含一个链接列表。对于每一页蜘蛛下载的页面，然后，一些页面链接（不递归）。所有页面都保存在文件系统上。该系统完美无瑕。目前我正在重构它来添加一些数据库交互。我没有使用物品，也没有物品管道。使用它们有什么好处？添加一些信息：我的抓取工具的目的是下载整个页面（以html，png或使用库转换为txt）。

0热度

1回答

当我尝试运行下面的代码无法连接到火力地堡实时数据库服务器的NodeJS

，下面的错误在控制台中显示出来失败：PERMISSION_DENIED （节点：12540）UnhandledPromiseRejectionWarning：未处理的承诺拒绝（拒绝ID：1）：错误：PERMISSION_DENIED：权限被拒绝 var firebase = require("firebase"); var config = { apiKey: "AIzaSyCJyak

1热度

1回答

处理网页爬虫中的AJAX块或创建手动输入

基于Alvin Bunk文章link to article我想创建一个web-cralwer，它登录到一个网站然后提交一个表单。我的问题是，在该网站上有一个Ajax块，在单击和空链接后生成一些输入，我需要填写，所以我需要点击某个空链接或手动插入输入。我改变了下面的代码在很多方面，试图使其工作，但对访问功能我被困我得到未捕获的错误：空调用一个成员函数访问（） <?php require 'v

1热度

1回答

如何检测按钮在源中是否被禁用

我想刮一个网站。它有下拉菜单。在下拉菜单中没有选择任何内容时，搜索按钮将变为灰色/不可点击。按钮的源代码是这样的： Search Reset <div

0热度

1回答

网络爬虫发生java.net.SocketException异常：软件导致连接中止：recv的失败

java.net.SocketException: Software caused connection abort: recv failed at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(Unknown Source) at java.net

0热度

1回答

TYPO3正在加载，直到内部服务器错误500出现

我在多个TYPO3实例（配置和TYPO3版本[7.6.20]总是相同）上配置了搜寻器（版本5.1.3）。有时它的工作，有时我有这个问题：毕竟Configurations所有我想要开始在Web - >信息 - > Site Crawler - >开始爬行爬网。当我在pagetree中选择一个页面并点击：然后它加载10 - 15分钟，我得到一个服务器错误（500）。这使得无法使用爬虫爬取页面。

0热度

2回答

如何将中文文本写入python中的文件

我在提取中文文本并将其写入文件时遇到了问题。 str = "全球紧张致富豪财富缩水贝索斯丁磊分列跌幅前两位"; f=open('test.txt','w'); f.write(str); 上面的代码运行良好。同时在下面的代码中写入文件以显示乱码。 import requests; from bs4 import BeautifulSoup f=open('data.txt','w'

0热度

1回答

如何使用X-Ray和NodeJs从Viadeo获取数据

所以我想用node.js x-ray抓取框架来抓取一些内容。虽然我可以从单个页面获取内容，但仅供一名员工使用，但无法让我了解如何获得所有员工。工作为例，但返回我的第一个员工： const request =require('request'); const Xray=require('x-ray'); var x = Xray(); x('http://www.viadeo.com/fr/