我得到以下XML这代表了新闻报道:解析XML与Jsoup
<content>
Some text blalalala
<h2>Small subtitle</h2>
Some more text blbla
<ul class="list">
<li>List item 1</li>
<li>List item 2</li>
</ul>
<br />
Even more freakin text
</content>
我知道格式是不理想,但现在我必须抓住它。
的文章应该是这样的:
- 一些文本blalalala
- 小字幕
- 与项目
- 更刻着文字
我解析这个XML与Jsoup名单。我可以在<content>
标签中获得doc.ownText()
的文本,但是我不知道其他东西(小标题)的放置位置,我只得到一个大的String
。
它会更好使用基于事件的解析器这个(我恨他们:()还是有可能做这样的事情doc.getTextUntilTagAppears("tagName")
编辑:为了澄清,我知道热,以获得元素<content>
下,我的问题是每次当它由一个元素中断时间去内<content>
文本,打散。
我才知道,我可以得到内的所有内容文本与.textNodes()
,工程巨大,但随后再次我不不知道我的文章中哪个文本节点属于哪个文件(一个在h2之前,另一个在最下面)
你有工作吗? – zEro