2010-11-03 79 views
0

我使用document.documentElement.textContent.toLowerCase()来读取网站文本内容,问题是这个网站在任何真正的文本之前都有这么多的css和js代码,我甚至没有得到完整的文本,它会在CSS的某些部分获得中继。从字符串剥离html标记,css和js代码

如何删除所有css和js代码以仅检索文本内容?

+0

也许样本来源将帮助 – Prozaker 2010-11-03 01:29:35

回答

0

这是怎么回事?

var text = document.getElementsByTagName('body')[0].textContent.toLowerCase(); 
+0

是的,这适用于本网站,但所有的网站都有一个身体标记? – gtilx 2010-11-03 01:29:32

+0

@gtilx如果它们是有效的HTML,那么是的。 – alex 2010-11-03 01:32:35

+0

大多数现代浏览器可能会自动提供。 < - 未经检验的索赔 – Quickredfox 2010-11-03 03:03:16