2016-12-28 79 views
1

我试图打开并处理mht文件并刮掉经销商位置数据。每当我遇到一个HTML格式“棘手”的网站时,我总是会遇到同样的问题。事实证明:在mht文件中替换 n

A HREF = “http://www.google.com/maps?s=123主要ST” ......

a href="http://www.= 
google.com/maps?=12= 
3 main st" 

什么我有迄今为止尝试过没有努力把这条线带回原来的自我。我仍然无法将地址关闭。

a = a.replace(r'=\n', '') 

a = a.replace(r'\n', '') 

甚至试过,

a = a.replace(r'[0D]', '') 

和刚刚试过,

a = a.sub(r'\n', '') 

和所有我得到的是错误“海峡对象没有属性'sub',它有或没有t做同样的事情他在代码中。

到目前为止没有任何工作。如何替换每当我去查看mht文件时始终弹出的= \ n。

我使用

a = open('Filename.mht', 'r') 
b = a.read() 
a.close() 
+0

你能告诉我们你用来获取mht文件的代码,以及如何打开它吗? –

+0

我的答案是否适合你? –

回答

0

str = str.replace("\n","") 为我工作。所以,如果你

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st' 

这应该工作 This post might help, and explain why.

编辑:刚刚测试过的是,它的工作。

0

我想我找到了解决办法。 .read()引起了问题,但不知道为什么。我将它更改为readlines(),然后将字符串重新组合在一起,并且现在只用一个小例外就可以正常工作,总得讨厌'。'。当你试图重新找到...至少我认为这是导致该程序现在挂断的原因。

+0

你还需要帮助吗? –