如何使用jsoup从此html标签中获取文本？

我在使用jsoup来提取数据时遇到了一个问题。像这样的数据：如何使用jsoup从此html标签中获取文本？

This is a <strong>strong</strong> number <date>2013</date>

我想这样的数据：This is a number

我怎么能这样做？谁能帮我？

来源

2013-04-11 user2269351

您可以将HTML解析成Document，选择body - 元素，并得到其文本。

例子：

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>"); 

String ownText = doc.body().ownText(); 
String text = doc.body().text(); 

System.out.println(ownText); 
System.out.println(text);

输出：

This is a number 
This is a strong number 2013

来源

2013-04-12 23:17:32 ollo

非常感谢你马赫！ – user2269351 2013-04-15 01:27:22

这应该回答你的问题：

public String escapeHtml(String source) { 
    Document doc = Jsoup.parseBodyFragment(source); 
    Elements elements = doc.select("b"); 
    for (Element element : elements) { 
     element.replaceWith(new TextNode(element.toString(),"")); 
    } 
    return Jsoup.clean(doc.body().toString(), new Whitelist().addTags("a").addAttributes("a", "href", "name", "rel", "target")); 
}

Jsoup - Howto clean html by escaping not deleting the unwanted html?

来源

2013-04-12 23:17:32

Document doc = Jsoup.parse("This is a <strong>strong</strong> number <date>2013</date>"); 

Spanned HtmlDoc = Html.fromHtml(doc.toString()); 
String fromHTML = HtmlDoc.toString(); 

System.out.println(fromHTML);

来源

2015-09-18 19:05:09

如何使用jsoup从此html标签中获取文本？

回答

相关问题