2012-09-07 55 views
0

我在java中使用jericho html解析器。我想从网站获取数据。在网站的HTML内容是这样的....如何使用jericho html解析器从网站获取数据?

<div class="class_div"> 
    <div class="class_div2">All contents...</div>` 
    <span class="equals">Content 1</span> 
    <span class="equals">Content 2</span> 
    <span class="equals">Content 3</span> 
    <span class="equals">Content 4</span> 
</div> 

我想获取内容1,内容2,内容3,内容4.如何获取呢?

我使用此代码

String sourceUrlString="<website url>"; 
if (sourceUrlString.indexOf(':')==-1) 
sourceUrlString="http:"+sourceUrlString; 
Source source=new Source(new URL(sourceUrlString)); 
Element bodyContent = source.getElementByClass("equals");` 
+0

你有什么尝试?显示一些代码,我们可以帮助指导你。如果您不知道从哪里开始http://jericho.htmlparser.net/docs/javadoc/net/htmlparser/jericho/Tag.html,请点击此处 –

回答

0

在哪里的问题?有了您的代码获取每个Element - 与你自己的文字:

Source source = new Source(/* ... */); 
List<Element> elements = source.getAllElementsByClass("equals"); 

for(Element element : elements) 
{ 
    /* 
    * 'element.getTextExcrator().toString()' returns the text of the element 
    */ 
    System.out.println(element.getTextExtractor().toString()); 
} 

输出:

内容1
内容2
内容3
内容4