在没有证书的情况下100％无止境的CPU使用率获取SSL页面

在Ruby 1.9.3上使用Mechanize 2.6.0我试图从Windows 7x64通过HTTPS获取网页。当我尝试get() URL中的CPU使用率达到100％，并且该方法不会返回：在没有证书的情况下100％无止境的CPU使用率获取SSL页面

require 'mechanize' 
uri = "https://my.com/wiki/api.php?action=query&titles=US4&prop=info&format=xml" 
agent = Mechanize.new 
u,p = %w[myusername mypassword] 
agent.add_auth(uri, u, p) 
agent.agent.http.verify_mode = OpenSSL::SSL::VERIFY_NONE 
info = agent.get(uri)

当我打断它，我得到这些堆栈跟踪（三种不同的运行）：

>> info = agent.get(page_api) 
IRB::Abort: abort then interrupt! 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:27:in `call' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:27:in `parse' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:716:in `response_authenticate' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:306:in `fetch' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize.rb:431:in `get' 
     from (irb):10 
     from C:/Ruby193/bin/irb:12:in `<main>' 
>> info = agent.get(page_api) 
IRB::Abort: abort then interrupt! 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:29:in `call' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:29:in `new' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:29:in `parse' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:716:in `response_authenticate' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:306:in `fetch' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize.rb:431:in `get' 
     from (irb):11 
     from C:/Ruby193/bin/irb:12:in `<main>' 
>> info = agent.get(page_api) 
IRB::Abort: abort then interrupt! 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:114:in `call' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:114:in `token' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/www_authenticate_parser.rb:31:in `parse' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:716:in `response_authenticate' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize/http/agent.rb:306:in `fetch' 
     from C:/Ruby193/lib/ruby/gems/1.9.1/gems/mechanize-2.6.0/lib/mechanize.rb:431:in `get' 
     from (irb):12 
     from C:/Ruby193/bin/irb:12:in `<main>'

我该如何解决这个问题，并在Windows上通过Ruby正确获取HTTPS URL？（如果有更好的解决方案，比机械化更好 - 因为我只需要页面源就可以提供给Nokogiri - 我打算根本不使用机械化。）

另一个数据点：尝试相同的代码在OS X上产生相同的结果。

这里的网页的实际内容，用我的解决办法回答下面描述的替代取出方法：

p fetch_https_without_ssl_verification(uri, u, p) 
#=> "\t\t  <?xml version=\"1.0\"?><api><query><normalized><n from=\"Devtools/UI_Composer/DesignSpec/US7294\" to=\"Devtools/UI Composer/DesignSpec/US7294\" /></normalized><pages><page ns=\"0\" title=\"Devtools/UI Composer/DesignSpec/US7294\" missing=\"\" /></pages></query></api>"

来源

2013-05-09 Phrogz

这是真正的网址吗？我得到一个404 – pguardiario 2013-05-10 02:44:55

不，这不是实际的URL，也不是我的实际用户名或密码。 :)它是Intranet上的MediaWiki安装，需要SSL和身份验证。 – Phrogz 2013-05-10 02:52:50

这太糟糕了，没有公开的网址，你不可能得到任何帮助。您可以尝试将用户/密码放入网址中。 – pguardiario 2013-05-10 03:05:51

如果你只需要在URL的内容（像我一样），那么使用curl而不是机械化是更容易，它的工作原理：

def fetch_https_without_ssl_verification(uri, user=nil, pass=nil) 
    `curl -s -k #{%Q{-u "#{user}#{":"<<pass if pass}"} if user} "#{uri}"` 
end

来源

2013-05-10 15:31:41 Phrogz

在没有证书的情况下100％无止境的CPU使用率获取SSL页面

回答

相关问题