在mht文件中替换\ n

我试图打开并处理mht文件并刮掉经销商位置数据。每当我遇到一个HTML格式“棘手”的网站时，我总是会遇到同样的问题。事实证明：在mht文件中替换 n

A HREF = “http://www.google.com/maps?s=123主要ST” ......

到

a href="http://www.= 
google.com/maps?=12= 
3 main st"

什么我有迄今为止尝试过没有努力把这条线带回原来的自我。我仍然无法将地址关闭。

a = a.replace(r'=\n', '')

或

a = a.replace(r'\n', '')

甚至试过，

a = a.replace(r'[0D]', '')

和刚刚试过，

a = a.sub(r'\n', '')

和所有我得到的是错误“海峡对象没有属性'sub'，它有或没有t做同样的事情他在代码中。

到目前为止没有任何工作。如何替换每当我去查看mht文件时始终弹出的= \ n。

我使用

a = open('Filename.mht', 'r') 
b = a.read() 
a.close()

来源

2016-12-28 confused

你能告诉我们你用来获取mht文件的代码，以及如何打开它吗？ –

我的答案是否适合你？ –

做str = str.replace("\n","") 为我工作。所以，如果你

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st'

这应该工作 This post might help, and explain why.

编辑：刚刚测试过的是，它的工作。

来源

2016-12-28 18:02:51

我想我找到了解决办法。 .read（）引起了问题，但不知道为什么。我将它更改为readlines（），然后将字符串重新组合在一起，并且现在只用一个小例外就可以正常工作，总得讨厌'。'。当你试图重新找到...至少我认为这是导致该程序现在挂断的原因。

来源

2016-12-28 19:32:37 confused

你还需要帮助吗？ –

在mht文件中替换\ n

回答

相关问题