2017-02-13 137 views
0

我有一个包含html标签的csv文件。我试图迭代通过DataFrame删除使用以下函数的HTML标记,并得到'TypeError:预期的字符串或缓冲区'。任何关于这个错误的帮助将不胜感激。从Python DataFrame中删除HTML标签

import re 

def clean_html(raw_html): 
    for index, row in raw_html.iterrows(): 
     cleanr = re.compile('<.*?>') 
     cleantext = re.sub(cleanr, '', raw_html) 
     return cleantext 

回答

0

您正在将raw_html变量传递给re.sub函数。尝试传入行数据。

cleantext = re.sub(clean, '', row['a1'])