我正在使用Python和BeautifulSoup 4库处理HTML,我无法找到一个用空格替换
的明显方法。相反,它似乎被转换为一个Unicode不间断的空格字符。如何使用BeautifulSoup替换或删除像“ ”这样的HTML实体4
我错过了一些明显的东西吗?什么是最好的方式来取代& nbsp;有一个正常的空间使用BeautifulSoup?
编辑以补充说明我使用的是最新版本BeautifulSoup 4,因此Beautiful Soup 3中的convertEntities=BeautifulSoup.HTML_ENTITIES
选项不可用。
但是,它*是一个非破坏性空间... – 2013-02-28 14:48:55
是的,我知道 是一个非破坏性的空间。所以你说的正确的做法是获取我想要的HTML片段,然后运行Unicode搜索并替换?我想这就是我想要的,我只是认为有一个相当于旧的convertEntities选项。 – 2013-02-28 14:52:48