我使用document.documentElement.textContent.toLowerCase()
来读取网站文本内容,问题是这个网站在任何真正的文本之前都有这么多的css和js代码,我甚至没有得到完整的文本,它会在CSS的某些部分获得中继。从字符串剥离html标记,css和js代码
如何删除所有css和js代码以仅检索文本内容?
我使用document.documentElement.textContent.toLowerCase()
来读取网站文本内容,问题是这个网站在任何真正的文本之前都有这么多的css和js代码,我甚至没有得到完整的文本,它会在CSS的某些部分获得中继。从字符串剥离html标记,css和js代码
如何删除所有css和js代码以仅检索文本内容?
这是怎么回事?
var text = document.getElementsByTagName('body')[0].textContent.toLowerCase();
是的,这适用于本网站,但所有的网站都有一个身体标记? – gtilx 2010-11-03 01:29:32
@gtilx如果它们是有效的HTML,那么是的。 – alex 2010-11-03 01:32:35
大多数现代浏览器可能会自动提供。 < - 未经检验的索赔 – Quickredfox 2010-11-03 03:03:16
也许样本来源将帮助 – Prozaker 2010-11-03 01:29:35