2012-03-31 90 views
1

我需要动态获取标题和URL描述。为了做到这一点,我需要使用什么?使用URL动态获取标题和描述

就拿以下网址:http://en.wikipedia.org/wiki/Stack_overflow

我需要提取URL的瓷砖和它的描述。你喜欢jsoup提取如下?

url.select("title"); 

如果是,如何提取url的描述?

+0

什么是URL的标题和描述?你的意思是位于给定URL的HTML页面的标题吗?如果是这样,描述是什么?哪里可以找到? – 2012-03-31 15:38:46

+0

是的HTML网页的标题,从meta标签的HTML页面的描述... – 2012-03-31 15:46:08

+0

您是否找到了解决方案? – jordeu 2012-04-04 17:59:06

回答

1

我认为你需要一个像Jericho这样的HTML解析器。

看看这个例子: http://jericho.htmlparser.net/samples/console/src/ExtractText.java

特意此两种方法:

private static String getTitle(Source source) { 
    Element titleElement=source.getFirstElement(HTMLElementName.TITLE); 
    if (titleElement==null) return null; 
    // TITLE element never contains other tags so just decode it collapsing whitespace: 
    return CharacterReference.decodeCollapseWhiteSpace(titleElement.getContent()); 
} 

private static String getMetaValue(Source source, String key) { 
    for (int pos=0; pos<source.length();) { 
     StartTag startTag=source.getNextStartTag(pos,"name",key,false); 
     if (startTag==null) return null; 
     if (startTag.getName()==HTMLElementName.META) 
      return startTag.getAttributeValue("content"); // Attribute values are automatically decoded 
     pos=startTag.getEnd(); 
    } 
    return null; 
}