我想从我的twitter文本语料库中删除表情符号和表情符号。 该脚本成功删除了笑脸。但是,当我将该文件用于下一个分析步骤时,该字符串被转换为浮点数,并在接下来的步骤中导致错误。不删除表情符号,文本不是浮动的,并且在接下来的分析步骤中不会导致错误。所以错误可以在这个脚本中找到。我能以某种方式改变脚本,将字符串格式保留为字符串吗?“替换”将字符串转换为浮动。如何保持字符串格式?
浮动的结果是在输出文件中的一些行:
<class 'str'> ""USERNAME Danke, Dir auch, beim Stabilisieren und Herumdoktern am Falschen ""
<class 'str'> ""USERNAME Also ich werde, sobald die Brille da ist, sagen, was ich von den Gläsern und co halte! ""
<class 'float'> nan
#remove emoticons
with open("data_sentiment.csv","r", encoding="utf-8") as oldfile1, open("data_sentiment_stripped_emoticons.csv", 'w',encoding="utf-8") as newfile1:
for line in oldfile1:
line=line.replace("","").replace(":)", "").replace(":D", "").replace(":(","").replace(":-(","")
newfile1.write(line)
newfile1.close()
使用[原始字符串](https://docs.python.org/3.4/reference/lexical_analysis.html#string-and-bytes-literals) – Gahan