我有一个文件,其中包含损坏的XML,在我想摆脱的行尾有一些垃圾字符。这些垃圾字符不允许我使用Python的XML解析器。示例:删除行中的垃圾字符/ python中强大的XML解析器
<request><pair><name>q</name><value><![CDATA[LOL]]></value></pair><pair><name>start</name><value>1</value></pair></request>�J I�i�Y�Y��'z�3�u�J�5��}���#Q/k;!�ˑ�9Q){_������ŐF
<request><pair><name>q</name><value><![CDATA[LOL2]]></value></pair><pair><name>start</name><value>1</value></pair></request>4/lIT�l��'�c�Oֲ�{�;��_?��(>͏Y�mP��
如何在</request>
之后删除垃圾字符?换句话说,如何删除</request>
和<request>
之间的字符串?
请注意,从<request>
到</request>
仅仅是一个行,以便
代码:
awk '/<request>/ , /<\/request>/' test.txt
不起作用。
我的目的是在名称为“q”(LOL和LOL2)的情况下提取值。因此,如果这可以轻松完成,我不会为删除垃圾角色而烦恼。
谢谢你的时间。
为什么不是乱码解析XML先筛选? – 2012-01-05 11:42:18
如何过滤?我无法更改打印此XML的模块。所以我拥有的是一个带有垃圾字符的文件。 – 2012-01-05 11:43:44