2010-10-13 56 views
0

我想LXML清洁用它来摆脱所有的HTML,但随后一个正则表达式自动链接的东西:带有自定义标签的lxml清洁剂?

[ABC] -> <a href="bah bah bah">ABC</a> 

什么是处理这种不XSS和这样的路吗?

+1

什么叫“自动连接东西”是什么意思?我不明白[ABC] - > ABC – 2010-10-13 21:52:47

+0

thx,sry,它被剥离了,现在应该清楚了 – Timmy 2010-10-13 22:12:58

回答

1

也许使用内联HTML禁用markdown会适合? python markdown模块相当成熟。

查看docs中的“安全模式”部分以获取有关剥离嵌入式HTML的更多信息。

取决于你想要什么,像py-wikimarkup可能更合适。

使用自定义的正则表达式可能不是一个好主意,因为

  • 你必须解释/规则的人谁可能已经熟悉了降价wikitext的
  • 你必须提供一种逃避文本的方式,例如人谁真正想写的[ABC]
  • 你必须修复任何错误,包括安全问题