hpricot

    0热度

    4回答

    我在玩Ruby + Hpricot并构建一个简单的刮板。我能够与其他网站一起工作,无任何问题。但是,如果一个页面完全用JavaScript编写,那么可以被刮掉吗? 但是,google搜索结果页面现在似乎完全是基于JavaScript的,除了一些内部链接。 页面可以这样写不被常规工具,如机械化&刮角度来说,Hpricot(我的猜测是,他们不能) 他们是工具/使用的宝石,可能可能会尝试渲染页面(如浏览

    5热度

    2回答

    我需要从网站上抓取数据,但它首先需要我的登录信息。我一直在使用hpricot成功地刮掉其他网站,但我对使用机械化很陌生,而且我对如何处理它感到困惑。 我看到这个例子中经常提到的: require 'rubygems' require 'mechanize' a = Mechanize.new a.get('http://rubyforge.org/') do |page| # C

    5热度

    1回答

    我想将html转换为纯文本格式。我不想仅仅去掉标签,我想尽可能地保留尽可能多的格式。插入<br>标签的换行符,检测段落并将其格式化等等。 输入非常简单,通常格式良好的html(不是整个文档,只是一堆内容,通常没有锚或图像) 。 我可以将几个正则表达式组合在一起,让我有80%的存在,但是可能会有一些现有解决方案具有更多的智能。

    0热度

    1回答

    我想获取页面内图像的确切URL,然后下载它。我还没有到达下载点,因为我试图隔离图像的URL。这里是代码: #!/usr/bin/ruby -w require 'rubygems' require 'hpricot' require 'open-uri' raw = Hpricot(open("http://rads.stackoverflow.com/amzn/click/B0000

    1热度

    2回答

    一个div内的特定内容我有以下的HTML结构 <div id="rn_answertext"> <p>asdasdasdas</p> <p>asdasdasdas</p> <p>asdasdasdas</p> <h3>asdasdasdas</h3> <div id="test">Content to be excluded</div>

    1热度

    1回答

    我正在使用带有Ruby的CSS选择器浏览文档,但是我发现Hpricot中一些在Nokogiri中修复的css选择器错误,并且想要切换。 我遇到的一个问题是搞清楚如何获取所有“容器”(即不是文本节点)的孩子的数组。 Hpricot使用容器方法提供了该功能。 所以在角度来说,Hpricot我可以这样做: children = doc.select('*')[0].containers 但随着引入n

    0热度

    2回答

    我有一个Rails 3应用程序。控制器方法之一是解析大量的Twitter搜索结果并将它们存储到数据库中。如果要解析的URL数量很少,所有工作都会正常。但是,一旦网址达到1000以上,我有几秒钟后以下错误(从日志文件中复制): 地址:http://search.twitter.com/search?q=+Chas%20Salon+near:%22Baltimore%22+within:15mi 完成

    0热度

    2回答

    以下代码完美地工作。 @doc = open(link) { |f| Hpricot(f) } 但我想使用下面的代码,这似乎并不与角度来说,Hpricot块发挥出色(如@doc是一个临时文件的对象,而不是一个角度来说,Hpricot文档对象) @doc = resolve_link(link) { |f| Hpricot(f) } def resolve_link(link) b

    0热度

    1回答

    我想从超链接中获取实际的url字符串。我想我的结果被剥离的HTML。 所以,如果我的输入字符串中的一个是 <a href="http://target.com/resource.tar.gz">resource</a> 我想获得: http://target.com/resource.tar.gz 我怎样才能做到这一点?

    1热度

    1回答

    如何解析嵌套的UL /李标签我有以下的HTML结构 <div id='my_categories'> <ul> <li><a href="1">Animals, Birds, & Pets</a></li> <li><a href="2">Ask the Expert</a> <ul> <li><a href='21'>Health Care