如何从日志文件提取XML在python

解析我有包含XML信封（2种类型的XML结构的：请求和响应）的日志文件。我需要做的是分析此文件，提取XML-S并把它们放到2个数组作为字符串（请求和响应的第2个数组第1个数组），所以我可以在以后解析。如何从日志文件提取XML在python

任何想法如何我可以在Python实现这一目标？日志文件的

片段被解析（日志包含）：

2014-10-31 12:27:33,600 INFO Recharger_MTelemedia2Channel [mbpa.module.mgw.mtelemedia.mtbilling.MTSender][] Sending BILL request 
2014-10-31 12:27:33,601 INFO Recharger_MTelemedia2Channel [mbpa.module.mgw.mtelemedia.mtbilling.MTSender][] <?xml version="1.0" encoding="UTF-8"?> 
<request xmlns="XXX" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema"> 
    <transactionheader> 
      <username>XXX</username> 
      <password>XXX</password> 
      <time>31/10/2014 12:27:33</time> 
      <clientreferencenumber>123</clientreferencenumber> 
      <numberrequests>3</numberrequests> 
      <information>Description</information> 
      <postbackurl>http://localhost/status</postbackurl> 
    </transactionheader> 
    <transactiondetails> 
      <items> 
        <item id="1" client="XXX1" keyword="test"/> 
        <item id="2" client="XXX2" keyword="test"/> 
        <item id="3" client="XXX3" keyword="test"/> 
      </items> 
    </transactiondetails> 
</request> 
2014-10-31 12:27:34,487 INFO Recharger_MTelemedia2Channel [mbpa.module.mgw.mtelemedia.mtbilling.MTSender][] Response code 200 for bill request 
2014-10-31 12:27:34,489 INFO Recharger_MTelemedia2Channel [mbpa.module.mgw.mtelemedia.mtbilling.MTSender][] <?xml version="1.0" encoding="UTF-8"?> 

<response xmlns="XXX" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> 
    <serverreferencenumber>XXX123XXX</serverreferencenumber> 
    <clientreferencenumber>123</clientreferencenumber> 
    <information>Queued for Processing</information> 
    <status>OK</status> 
</response>

的答复非常感谢！

问候，罗伯特

来源

2014-10-31 Robert Jonczy

使用像etree解析器：https://docs.python.org/2/library/xml.etree.elementtree.html – Paco 2014-10-31 10:36:31

使用正则表达式identifiing他们后删除非XML线，然后一个标准的解析器会做。除了XML解析（beautifulsoup对我很好）我会把请求和响应放在字典中，请求作为关键字。 – 2014-10-31 10:43:42

由于@Paco和@Lord_Gestalter两个建议，你可以使用xml.etree并从文件替换非XML元素，像这样：

# I use re to substitute non-XML elements 
import re 
# then use xml module as a parser 
import xml.etree.ElementTree as ET 

# read your file and store in string 's' 
with open('yourfilehere','r') as f: 
    s = f.read() 
# then remove non-XML element with re 
# I also remove <?xml ...?> part as your file consists of multiple xml logs 
s = re.sub(r'<\?xml.*?>', '', ''.join(re.findall(r'<.*>', s))) 
# wrap your s with a root element 
s = '<root>'+s+'</root>' 
# parse s with ElementTree 
tree = ET.fromstring(s) 

tree 
<Element 'root' at 0x7f2ab877e190>

如果你不关心xml解析器，只想'请求'&'响应'字符串，请使用re.search

with open('yourfilehere','r') as f: 
    s = f.read()  
# put the string of both request and response into 'req' and 'res' 
# or you need to construct a better re.search if you have multiple requests, responses 
req = [re.search(r'<request.*\/request>', s).group()] 
res = [re.search(r'<response.*\/response>', s).group()] 

req 
['<request xmlns="XXX" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema"><transactionheader><username>XXX</username><password>XXX</password><time>31/10/2014 12:27:33</time><clientreferencenumber>123</clientreferencenumber><numberrequests>3</numberrequests><information>Description</information><postbackurl>http://localhost/status</postbackurl></transactionheader><transactiondetails><items><item id="1" client="XXX1" keyword="test"/><item id="2" client="XXX2" keyword="test"/><item id="3" client="XXX3" keyword="test"/></items></transactiondetails></request>'] 

res 
['<response xmlns="XXX" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><serverreferencenumber>XXX123XXX</serverreferencenumber><clientreferencenumber>123</clientreferencenumber><information>Queued for Processing</information><status>OK</status></response>']

来源

2014-10-31 11:28:25 Anzel

非常感谢！这正是我一直在寻找的！ – 2014-11-01 23:41:40

如何从日志文件提取XML在python

回答

相关问题