2017-08-02 79 views
0

所以我让我的代码工作,一切都很好。但是,有90个需要被抓取的页面。 我试图把整个脚本放在一个while循环中,但是它处理了一个为什么对我没有意义的代码。它将首先处理循环,而不是首先处理casper。 我是相当新的casperjs和我已经做了很多的研究,所以,请不要破坏我: 例子:CasperJS页面循环

var page = 0; 
var pageLimit = 90; 

//start loop 
while (page < pageLimit) { 

var casper = require('casper').create({ 
    verbose: true, 
    logLevel: 'error', 
    pageSettings: { 
     userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_5) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4' 
    } 

var url = 'https://saucelabs.com/blog/page/' + page; 
//sorry saucelabs.com i needed an example site for this post 

var names = []; 

function getNames() { 
    var names = document.querySelector('.entry-title'); 

     var str = document.querySelector('.entry-title').textContent; 
     var extracted = str.replace(/(\r\n|\n|\r)/gm,"");  
     extracted = extracted.replace(/\s+$/, ''); 
     return extracted; 
}; 

casper.start(url, function() { 
    //getting started 
}); 

casper.then(function() { 
    names = this.evaluate(getNames); 
}); 

casper.run(function(){ 
    this.echo(names);   
    this.echo("\n Successful!").exit(); 
    page++; 
}); 

} //end loop 

回答

0

这里真正的问题是,卡斯帕首先执行所有的代码,然后评估每个then一步为了。

//First, create a casper isntance 
var casper = require('casper').create({ 
    verbose: true, 
    logLevel: 'error', 
    pageSettings: { 
     userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_5) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4' 
    }); 



var names = []; 

function getNames() { 
    var names = document.querySelector('.entry-title'); 

     var str = document.querySelector('.entry-title').textContent; 
     var extracted = str.replace(/(\r\n|\n|\r)/gm,"");  
     extracted = extracted.replace(/\s+$/, ''); 
     return extracted; 
}; 

// Then, start casper. 
casper.start(url); 

while (page < pageLimit) { 
    var url = 'http://whatever.com/' + page; 
    // Open the new URL, and on load define 
    casper.thenOpen(url, function() { 
     var name = this.evaluate(getNames); 
     names.push(name); 
    }); 
} //end loop 

// Now that all of the steps are set up, run then all 
casper.run(function(){ 
    this.echo(names);   
    this.echo("\n Successful!").exit(); 
    page++; 
}); 
+0

我收到您提供的代码的语法错误。 SyntaxError:意外的令牌'>' –

+0

对,我试图使用ES6语法,因为我忘记casper没有更新。我修复了代码。 –

+0

不同的错误现在= - ) TypeError:undefined不是一个构造函数(评估'新阵列(pageLimit).fill(0)') –