Nokogiri返回的HTML与实际的HTML源代码不同

我已经成功地屏蔽了某些网站，但在今天某个网站上遇到了Nokogiri的一些非常奇怪的行为。Nokogiri返回的HTML与实际的HTML源代码不同

如果我查看Nokogiri在某些页面上从网站上的实际HTML scource代码拉下的HTML源代码，它将被截断。有些页面工作得很好，所有数据都在那里，其他的假发都会被截断。

www.bento.com/revj/0172.html（不工作 - 通过引入nokogiri返回截断HTML） www.bento.com/revj/0101.html（工大）

scraped_jpage = Nokogiri::HTML(open(page_to_scrape) 
puts scraped_pagej

我尝试了各种不同的代码，更改了编码（UTF-8，SHIFT_JIS等），但我看不出任何Nokogiri截断返回的HTML的原因。

这些网页的英文版本都完美运作。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

任何帮助的感谢 - 希望这件事情很明显我已经错过了，而不是一个错误。

2010-10-30 rollbahn

因为该源页面具有不良的html结构。

尝试打印结果错误：

puts scraped_jpage.errors

2010-11-21 08:05:06 huacnlee

回答