2017-07-03 69 views
0

我正在使用X射线来废除分页的网页。下面是一些HTML通过文本的X射线分页过滤器

<td align="center" style="font-size: 11pt;"> 
    <div class="paginate" style="font-size: 11pt;"> 
    <span class="disabled">Previous</span> 
    <span class="current">1</span> 
    <a href="link2.html">2</a> 
    <a href="link2.html">Next</a> 
    </div> 
</td> 

我想通过Next按钮报废。但是网页的例子被它的类名称所掠夺。

x('https://blog.ycombinator.com/', '.post', [{ 
    title: 'h1 a', 
    link: '[email protected]' 
}]) 
    .paginate('.nav-previous [email protected]') 

我想知道如何通过选择Next按钮中的链接来分页?

在此先感谢。

+0

写这篇文章我会写一个自定义的解析器,将适合你的需求最好。 – Lazyexpert

+0

@Lazyexpert我想你是对的,我试图懒惰通过使用X射线。但它似乎并不适合。最初我使用request + cheerio,但我试图废除子页面(共4层)。刮4层依次缓慢,你知道我怎么能将它转换成并行请求? – Winston

+0

你可以使用Promise.all,你可以使用async.parallel或者再次使用基于回调的自定义解决方案:) – Lazyexpert

回答

0

过滤器通过文本

.paginate('.paginate a:contains(Next)@href')