前标签:我要清理的“脚本”的标签,但我想保持的一个标签,最好蟒蛇LIB清洁标签(不安全),并保持,我认为安全
所以你用什么lib来做到这一点。
和我使用所见即所得的HTML编辑器的jquery cleditor,它可以自动执行此操作吗?
谢谢
前标签:我要清理的“脚本”的标签,但我想保持的一个标签,最好蟒蛇LIB清洁标签(不安全),并保持,我认为安全
所以你用什么lib来做到这一点。
和我使用所见即所得的HTML编辑器的jquery cleditor,它可以自动执行此操作吗?
谢谢
我想BeautifulSoup应该做的伎俩,在这里。
其实,这里有一个问题的答案+这也正是有关:Python HTML sanitizer/scrubber/filter
我必须自动为我的一个项目做到这一点。我找到的解决方案是使用Beautiful Soup模块来提取脚本标记(我也是这样做的风格和形式)。
soup = BeautifulSoup(html_string, convertEntities=BeautifulSoup.HTML_ENTITIES)
scripts = soup.findAll('script') # find and return a list of 'script' entities
for s in scripts:
s.extract() # remove it from the DOM completely
然后,你可以有BeautifulSoup打印出来或保存html。
另一种选择,专为消毒,是html5lib。
无论你做什么,做而不是依靠一个编辑器组件来为你做:它运行在客户端,所以很容易被操纵提交无效或恶意的HTML!