从字符串剥离html标记，css和js代码

我使用document.documentElement.textContent.toLowerCase()来读取网站文本内容，问题是这个网站在任何真正的文本之前都有这么多的css和js代码，我甚至没有得到完整的文本，它会在CSS的某些部分获得中继。从字符串剥离html标记，css和js代码

如何删除所有css和js代码以仅检索文本内容？

2010-11-03 gtilx

也许样本来源将帮助 – Prozaker 2010-11-03 01:29:35

这是怎么回事？

var text = document.getElementsByTagName('body')[0].textContent.toLowerCase();

2010-11-03 01:26:44 alex

是的，这适用于本网站，但所有的网站都有一个身体标记？ – gtilx 2010-11-03 01:29:32

@gtilx如果它们是有效的HTML，那么是的。 – alex 2010-11-03 01:32:35

大多数现代浏览器可能会自动提供。 < - 未经检验的索赔 – Quickredfox 2010-11-03 03:03:16

回答