Stax事件阅读器跳过空白

我正在编写一个实用程序来使用STAX事件模型来更改XML文件中的文本实体。我发现源文档中的一些空白区域没有被复制到输出中。我写了这个示例程序：Stax事件阅读器跳过空白

import java.io.ByteArrayInputStream; 
import java.io.ByteArrayOutputStream; 
import java.io.IOException; 
import java.io.InputStream; 
import java.io.OutputStream; 
import java.nio.charset.StandardCharsets; 

import javax.xml.stream.*; 
import javax.xml.stream.events.*; 

public class EventCopy { 
    private static final String INPUT = 
      "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n" + 
      "<foo><bar>baz</bar></foo>\n"; 

    public static void main(String[] args) throws XMLStreamException, IOException { 
     InputStream reader = new ByteArrayInputStream(INPUT.getBytes(StandardCharsets.UTF_8)); 
     OutputStream writer = new ByteArrayOutputStream(); 

     XMLInputFactory input = XMLInputFactory.newInstance(); 
     XMLEventReader xmlReader = input.createXMLEventReader(reader, "UTF-8"); 
     try { 
      XMLOutputFactory output = XMLOutputFactory.newInstance(); 
      XMLEventWriter xmlWriter = output.createXMLEventWriter(writer, "UTF-8"); 
      try { 
       while (xmlReader.hasNext()) { 
        XMLEvent event = xmlReader.nextEvent(); 
        System.out.print(event.getEventType() + ","); 
        xmlWriter.add(event); 
       } 
      } finally { 
       xmlWriter.close(); 
      } 
     } finally { 
      xmlReader.close(); 
     } 
     System.out.println("\n[" + writer.toString() + "]"); 
    } 
}

使用带有甲骨文的Java 7的默认斯塔克斯实现，该电源输出：

7,1,1,4,2,2,8, 
[<?xml version="1.0" encoding="UTF-8"?><foo><bar>baz</bar></foo>]

的XML序言以下，并在输入结束时的换行已经消失。看来读者甚至不会为他们产生事件。

我想，也许在XML阅读器离开位于最后一个XML标签的末尾输入流，并试图将代码添加到尾随字符从输入复制到输出：

... 
    } finally { 
     xmlReader.close(); 
    } 
    int ii; 
    while (-1 != (ii = reader.read())) { 
     writer.write(ii); 
    }

但这没有任何作用。

有没有办法让STAX更忠实地复制这个XML？不同的STAX实现在这里会有不同的表现吗？

来源

2016-11-20 Kenster

尝试使用“
”而不是“\ n” –

参考：XML spec

A-良好的XML文档遵循规范的语法：

[1] document ::= prolog element Misc* 
[22] prolog ::= XMLDecl? Misc* (doctypedecl Misc*)? 
[23] XMLDecl ::= '<?xml' VersionInfo EncodingDecl? SDDecl? S? '?>' 
[27] Misc  ::= Comment | PI | S 
[3] S  ::= (#x20 | #x9 | #xD | #xA)+ 

[39] element ::= EmptyElemTag 
        | STag content ETag 
[40] STag  ::= '<' Name (S Attribute)* S? '>' 
[43] content ::= CharData? ((element | Reference | CDSect | PI | Comment) CharData?)* 
[14] CharData ::= [^<&]* - ([^<&]* ']]>' [^<&]*) 
[42] ETag  ::= '</' Name S? '>'

XMLDecl和根元素，与根元素之后的一个之间的换行，只是解析器允许自己忽略的S。

让我举一个不同的空白的例子。假设你有一个稍微不同的XML：

private static final String INPUT = 
     "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n" + 
     "<foo>\n<bar>baz</bar></foo>\n";

<foo>和<bar>之间的换行是一个CharData。请注意，StAX会为这个角色正确生成一个事件。

如果您确实想保留S，那么您需要将文本替换为INPUT而不是XML文档。请注意，两个XML文档实例，其中一个具有这两个特定的S字符，另一个没有它们，它们是等效的。

来源

2016-11-20 19:20:00 nandsito

我认为输出在语义上等同于输入。那不是我正在寻找的东西。我担心如果这个XML过滤器对XML进行了不必要的更改，那么我的用户会抱怨，并且我不希望与他们争辩说这些更改无关紧要。 – Kenster

@Kenster我猜你缺乏选择。然后将XML读为文本。我相信大多数XML解析器都会忽略这些空格 – nandsito

Stax事件阅读器跳过空白

回答

相关问题