2010-10-30 68 views
1

我已经成功地屏蔽了某些网站,但在今天某个网站上遇到了Nokogiri的一些非常奇怪的行为。Nokogiri返回的HTML与实际的HTML源代码不同

如果我查看Nokogiri在某些页面上从网站上的实际HTML scource代码拉下的HTML源代码,它将被截断。有些页面工作得很好,所有数据都在那里,其他的假发都会被截断。

www.bento.com/revj/0172.html(不工作 - 通过引入nokogiri返回截断HTML) www.bento.com/revj/0101.html(工大)

scraped_jpage = Nokogiri::HTML(open(page_to_scrape) 
puts scraped_pagej 

我尝试了各种不同的代码,更改了编码(UTF-8,SHIFT_JIS等),但我看不出任何Nokogiri截断返回的HTML的原因。

这些网页的英文版本都完美运作。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

任何帮助的感谢 - 希望这件事情很明显我已经错过了,而不是一个错误。

回答

1

因为该源页面具有不良的html结构。

尝试打印结果错误:

puts scraped_jpage.errors