我刚刚开始使用HTTPClient,我想从网页中提取原始文本并减去所有的html标记。使用HTTPClient获取网页的文本
HTTPClient可以完成吗?如果是这样,怎么样?还是有我应该看的另一个图书馆?
例如,如果页面包含
<body><p>para1 test info</p><div><p>more stuff here</p></div>
我想它想输出
para1 test info more stuff here
我刚刚开始使用HTTPClient,我想从网页中提取原始文本并减去所有的html标记。使用HTTPClient获取网页的文本
HTTPClient可以完成吗?如果是这样,怎么样?还是有我应该看的另一个图书馆?
例如,如果页面包含
<body><p>para1 test info</p><div><p>more stuff here</p></div>
我想它想输出
para1 test info more stuff here
我建议使用HttpComponents Client (HTTPClient 4)(而不是你已经链接到的版本3)。
这就是说,它独立于HTTP客户端库(还有其他)。你需要的是将HTML转换为纯文本。这可能是有趣的:http://www.rgagnon.com/javadetails/java-0424.html
的HTML Parser library可能是你在找什么。它允许从HTML文档中提取内容。
编号HttpClient处理网络协议 - 发送请求和接收响应。一旦你收到答复,你就可以找出答案。也就是说,您可以使用其他库来解析HTML,如其他人所建议的。
正如其他人所提到的,您需要一个HTML解析库。 Here是一个相关的问题。