2016-04-24 83 views
1

在PHP中,你可以简单地做剥离CDATA标签XML如下:剥离CData的标签XML的Perl

simplexml_load_string($string, 'SimpleXMLElement', LIBXML_NOCDATA); 

我不知道我怎么会使用XML::Bare或任何其他模块做到这一点在Perl?

我的客户往往会发出这样一个xml:

<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg> 

使用XML ::裸我会分析它是这样的:

$string = "<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>"; 
$strXML = XML::Bare->new('text' => $string)->parse; 
say $strXML->{msg}->{body}->{login}->{nick}->{value}; 

和它的作品,但我想脱光关闭cdata标签以防止在我的服务器上进行sql注入。有谁知道我该如何去做这件事?我在网上搜索了一个解决方案,但一直没能找到答案。

+0

什么是从示例XML您预期的输出? – simbabque

+0

[XML ::裸表示它会剥离](https://metacpan.org/pod/XML::Bare#Parsing-Limitations-Features)不需要的CDATA ... – simbabque

+0

我基本上想要一个没有cdata解析的xml – Lucas

回答

2

例如以下:

use 5.014; 
use warnings; 
use XML::LibXML; 

#the input xml 
my $str = q{<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg>}; 

#the parsing 
my $dom = XML::LibXML->load_xml(
    string => $str, 
    no_cdata => 1, #strip CDATA 
); 

#nice-print the parsed xml 
say $dom->toString(2); 

#print the "nick" and pword 
say "the nick is ==", $dom->find('//nick')->string_value, "=="; 
say "the pword is ==", $dom->find('//pword')->string_value, "=="; 

打印原始的XML无CDATA,如:

<?xml version="1.0"?> 
<msg t="sys"> 
    <body action="login" r="0"> 
    <login z="w1"> 
     <nick>Test</nick> 
     <pword>4c24a5558542bf35cca54d8749c78de6</pword> 
    </login> 
    </body> 
</msg> 

the nick is ==Test== 
the pword is ==4c24a5558542bf35cca54d8749c78de6== 
1

您可以尝试使用HTML::Parser这样的:

#!/usr/bin/env perl 
use strict; 
use warnings; 

use HTML::Parser; 

my $xml = <<XML; 
<msg t='sys'><body action='login' r='0'><login z='w1'><nick><![CDATA[Test]]></nick><pword><![CDATA[4c24a5558542bf35cca54d8749c78de6]]></pword></login></body></msg> 
XML 

my $parsed_xml; 

HTML::Parser->new(default_h => [ sub { $parsed_xml .= shift }, 'text' ], 
    xml_mode => 1, 
    marked_sections => 1, 
)->parse($xml) or die $!; 

print $parsed_xml; 

marked_sections参数会导致解析器返回CDATA部分的内容作为text,然后将连接到$parsed_xml变量。

+0

我想要做的就是删除cdata标签,但是保留了其中的值,就像我在上面注释中发布的xml – Lucas

+0

我已经更新了脚本满足您的要求@卢卡斯 – bart