2010-07-07 186 views
1

我刚刚开始使用HTTPClient,我想从网页中提取原始文本并减去所有的html标记。使用HTTPClient获取网页的文本

HTTPClient可以完成吗?如果是这样,怎么样?还是有我应该看的另一个图书馆?

例如,如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div> 

我想它想输出

para1 test info more stuff here 

回答

1

编号HttpClient处理网络协议 - 发送请求和接收响应。一旦你收到答复,你就可以找出答案。也就是说,您可以使用其他库来解析HTML,如其他人所建议的。

0

正如其他人所提到的,您需要一个HTML解析库。 Here是一个相关的问题。