使用HTTPClient获取网页的文本

我刚刚开始使用HTTPClient，我想从网页中提取原始文本并减去所有的html标记。使用HTTPClient获取网页的文本

HTTPClient可以完成吗？如果是这样，怎么样？还是有我应该看的另一个图书馆？

例如，如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div>

我想它想输出

para1 test info more stuff here

2010-07-07 James

我建议使用HttpComponents Client (HTTPClient 4)（而不是你已经链接到的版本3）。

这就是说，它独立于HTTP客户端库（还有其他）。你需要的是将HTML转换为纯文本。这可能是有趣的：http://www.rgagnon.com/javadetails/java-0424.html

2010-07-07 18:57:39 Bruno

的HTML Parser library可能是你在找什么。它允许从HTML文档中提取内容。

2010-07-07 18:56:38 Jeff

编号HttpClient处理网络协议 - 发送请求和接收响应。一旦你收到答复，你就可以找出答案。也就是说，您可以使用其他库来解析HTML，如其他人所建议的。

2010-07-07 19:04:27

正如其他人所提到的，您需要一个HTML解析库。 Here是一个相关的问题。

2010-07-07 19:22:59 laz

回答