这是可以提取从HTML SRC人类可读的内容？

的HTML是一种标记语言，有很多东西混合。但是我想从网站中提取人类可读的数据来做一些内容分析。但我所能看到的仅仅是html代码。我可以逐个提取所有HTML标签以提取文本并将其映射出去。（至少，我可以grep大部分数据，而不是JavaScript的插入的数据）而不是做这个的，我可以有一个更有效的方式来做到这一点？谢谢。这是可以提取从HTML SRC人类可读的内容？

***用java作为编程语言

来源

2012-02-29 DNB5brims

什么（编程）语言？大多数语言都有一些*剥离* HTML标签的软件包。 – deceze 2012-02-29 01:33:34