2012-02-29 56 views
1

的HTML是一种标记语言,有很多东西混合。但是我想从网站中提取人类可读的数据来做一些内容分析。但我所能看到的仅仅是html代码。我可以逐个提取所有HTML标签以提取文本并将其映射出去。 (至少,我可以grep大部分数据,而不是JavaScript的插入的数据)而不是做这个的,我可以有一个更有效的方式来做到这一点?谢谢。这是可以提取从HTML SRC人类可读的内容?

***用java作为编程语言

+0

什么(编程)语言?大多数语言都有一些*剥离* HTML标签的软件包。 – deceze 2012-02-29 01:33:34

回答

0

您可以尝试使用一个终端模式的浏览器,如猞猁呈现网站为纯文本,然后做内容分析,它的输出。