0
我使用http://code.google.com/p/feedparser/来编写一个简单的新闻集成器。从FeedParser中删除URL和图像
但我想纯文本(与<p>
标签),但没有网址或图像(即没有0或<img>
标签)。
这里有两种方法可以做到这一点:
1.Edit的源代码。 http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py
class _HTMLSanitizer(_BaseHTMLProcessor):
acceptable_elements =[....]
只需取下一个& img标签。
2.
import feedparser
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a')
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img')
当我使用feedparser,首先取下两个标签。
哪种方法更好?
有没有其他的好方法?
非常感谢!