2016-04-22 217 views
2

我试图从XML文件中提取文本,但没有得到我期望的结果。从xml文件中提取文本

这是XML的一个片段,我试图分析来说明我的问题:

<texto_Quijote_I> 
<bloque nombre="prologo"> 
<autor> 
Desocupado lector: sin juramento me podrás creer que quisiera que este; 
como será poner, tratando de libertad y cautiverio: 
<cita_latin> Non bene pro toto libertas venditur auro.</cita_latin> 
Y luego, en el margen, citar a Horacio, o a quien lo dijo. Si tratáredes 
del poder de la muerte, acudir luego con: 
<cita_latin> 
    Pallida mors aequo pulsat pede pauperum tabernas, 
    Regumque turres. 
</cita_latin> 
Si de la amistad y amor que Dios manda que se tenga al enemigo, entraros 
luego al punto por la Escritura Divina, que lo podéis hacer con tantico de 
curiosidad, y decir las palabras, por lo menos, del mismo Dios: 
<cita_latin>Ego autem dico vobis: diligite inimicos vestros</cita_latin>. 
Si tratáredes de malos pensamientos, 
acudid con el Evangelio: 
<cita_latin>De corde exeunt cogitationes malae</cita_latin>. 
Si de la instabilidad de los amigos, ahí está Catón, que os dará su dístico: 
<cita_latin> 
    Donec eris felix, multos numerabis amicos, 
    tempora si fuerint nubila, solus eris. 
</cita_latin> 
Y con estos latinicos y otros tales os tendrán siquiera por gramático, que 
Y con esto, Dios te dé salud, y a mí no olvide. Vale. 
</autor> 
</bloque> 
</texto_Quijote_I> 

我试图提取所有某些标签之间的文本。因此,例如,获得<autor>..</autor>标签之间的所有文字,我想这一点:

import xml.etree.ElementTree as ET 
tree = ET.parse("file.xml") 
root = tree.getroot() 
text = "" 
for n in root.findall(".//autor"): 
    text += n.text 

但是,当我检查字符串,我只得到:

"Desocupado lector: sin juramento me podrás creer que quisiera que este; 
como será poner, tratando de libertad y cautiverio:" 

这是它应该是如何工作的?我期待得到<autor></autor>之间的所有文本。

+0

文档说文本仅显示标签的文本内容。其他东西不是文本(集合和子集理论?)的一部分: Element.findall()仅查找带有作为当前元素的直接子元素的标记的元素。 Element.find()用特定的标签找到第一个子元素,Element.text访问元素的文本内容。 Element.get()访问元素的属性:' 此外,'xml.etree.ElementTree模块对于恶意构造的数据不安全。如果您需要解析不可信或未经身份验证的数据,请参阅XML漏洞。# – Adib

回答

0

你必须迭代孩子,并从那里收集文本。

此外,我利用“尾巴”,因为它捕获标签之间的信息。从文档报价:如果元素从XML文件创建

,文本属性包含 无论是元素的开始标签和它的第一个孩子或 结束标记,或无之间和文字中,尾部属性包含 元素的结束标记和下一个标记之间的文本,或无。

tree = ET.parse("file.xml") 
root = tree.getroot() 
text = "" 
for n in root.findall(".//autor"): 
    text += n.text 
    text += n.tail 
    for x in n: 
     text += x.text 
     text += x.tail 

print text 

结果

Desocupado lector: sin juramento me podrás creer que quisiera que este; 
como será poner, tratando de libertad y cautiverio: 

    Non bene pro toto libertas venditur auro. 
Y luego, en el margen, citar a Horacio, o a quien lo dijo. Si tratáredes 
del poder de la muerte, acudir luego con: 

    Pallida mors aequo pulsat pede pauperum tabernas, 
    Regumque turres. 

Si de la amistad y amor que Dios manda que se tenga al enemigo, entraros 
luego al punto por la Escritura Divina, que lo podéis hacer con tantico de 
curiosidad, y decir las palabras, por lo menos, del mismo Dios: 
Ego autem dico vobis: diligite inimicos vestros. 
Si tratáredes de malos pensamientos, 
acudid con el Evangelio: 
De corde exeunt cogitationes malae. 
Si de la instabilidad de los amigos, ahí está Catón, que os dará su dístico: 

    Donec eris felix, multos numerabis amicos, 
    tempora si fuerint nubila, solus eris. 

Y con estos latinicos y otros tales os tendrán siquiera por gramático, que 
Y con esto, Dios te dé salud, y a mí no olvide. Vale. 
+1

非常感谢您,“tail”方法正在提取我想要的文本。 – Wunter