2015-04-05 44 views
2

我想要一个XML文件,结构严密,大小约为一半,并从中创建另一个XML文件,其中只包含原始文件的选定元素。基于Java中的另一种XML创建XML

1)我该怎么做?

2)可以用DOM Parser完成吗?什么是DOM解析器的大小限制?

谢谢!

+0

考虑使用XSLT,它允许您编写一个模板(以XML形式),作为提取所需元素和/或属性的配方,然后将其作为新文档(如果需要,可以使用XML)写出。过去我使用[Saxon](http://saxon.sourceforge.net/)来执行此操作(使用命令行脚本而非Java应用程序)。 – Bobulous 2015-04-05 19:26:18

+0

您可能更喜欢按顺序阅读文件,只保存实际需要的元素。通过这种策略,您将不需要分配内存来存储和操作0.5GB文件。你可以用SAX解析器来做到这一点。您也可以在Java中使用Stax。 – helderdarocha 2015-04-05 19:39:44

回答

2

如果您有一个非常大的源XML(例如您的0.5 GB文件),并希望从中提取信息,可能创建一个新的XML,您可以考虑使用基于事件的解析器,它不需要加载整个内存中的XML。这些实现中最简单的是SAX解析器,它需要你编写一个事件监听器来捕获你正在阅读的数据(名称为document-start,element-start,element-end等等)元素,属性等),并决定是否要忽略它或者对数据做些什么。

使用JAXP搜索SAX教程,您应该找到几个示例。您可能要考虑的另一种策略,取决于您想要做的是StAX。

下面是一个简单的示例,它使用SAX从XML文件读取数据并根据搜索条件提取一些信息。这是我用来教SAX处理的一个非常简单的例子。我认为这可能有助于你理解它是如何工作的。搜索标准是硬连线的,由电影导演的名字组成,用巨大的XML搜索从IMDB数据生成的电影选择。

XML源例如( “source.xml” 〜300MB文件)

<Movies> 
    ... 
    <Movie> 
     <Imdb>tt1527186</Imdb> 
     <Title>Melancholia</Title> 
     <Director>Lars von Trier</Director> 
     <Year>2011</Year> 
     <Duration>136</Duration> 
    </Movie> 
    <Movie> 
     <Imdb>tt0060390</Imdb> 
     <Title>Fahrenheit 451</Title> 
     <Director>François Truffaut</Director> 
     <Year>1966</Year> 
     <Duration>112</Duration> 
    </Movie> 
    <Movie> 
     <Imdb>tt0062622</Imdb> 
     <Title>2001: A Space Odyssey</Title> 
     <Director>Stanley Kubrick</Director> 
     <Year>1968</Year> 
     <Duration>160</Duration> 
    </Movie> 
    ... 
</Movies> 

这里是事件处理程序的一个例子。它通过匹配字符串来选择Movie元素。我扩展了DefaultHandler并实现了startElement()(在找到开始标记时调用),characters()(在读取一个字符块时调用),endElement()(在发现结束标记时调用)和endDocument()(在文档完成时调用一次)。由于读取的数据不会保留在内存中,因此您必须保存您自己感兴趣的数据。我使用了一些布尔标志和实例变量保存当前标签,当前数据等

class ExtractMovieSaxHandler extends DefaultHandler { 

    // These are some parameters for the search which will select 
    // the subtrees (they will receive data when we set up the parser) 
    private String tagToMatch; 
    private String tagContents; // OR match 
    private boolean strict = false; // if strict matches will be exact 

    /** 
    * Sets criteria to select and copy Movie elements from source XML. 
    * 
    * @param tagToMatch Must contain text only 
    * @param tagContents Text contents of the tag 
    * @param strict If true, match must be exact 
    */ 
    public void setSearchCriteria(String tagToMatch, String tagContents, boolean strict) { 
     this.tagToMatch = tagToMatch; 
     this.tagContents = tagContents; 
     this.strict = strict; 
    } 

    // These are the temporary values we store as we parse the file 
    private String currentElement; 
    private StringBuilder contents = null; // if not null we are in Movie tag 
    private String currentData; 
    List<String> result = new ArrayList<String>(); // store resulting nodes here 
    private boolean skip = false; 

... 

这些方法都是ContentHandler的实施。第一个检测到一个元素被找到(开始标记)。我们在一个变量保存标记(Movie子)的名字,因为它可能是一个我们在搜索中使用:

... 

    @Override 
    public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException { 

     // Store the current element that started now 
     currentElement = qName; 

     // If this is a Movie tag, save the contents because we might need it 
     if (qName.equals("Movie")) { 
      contents = new StringBuilder(); 
     } 

    } 
...  

这一个被称为每个字符块被称为时间。我们检查这些字符是否发生在我们感兴趣的元素内。如果是,我们匹配内容并保存,如果匹配。

... 
    @Override 
    public void characters(char[] ch, int start, int length) throws SAXException { 

     // if we discovered that we don't need this data, we skip it 
     if (skip || currentElement == null) { 
      return; 
     } 

     // If we are inside the tag we want to search, save the contents 
     currentData = new String(ch, start, length); 

     if (currentElement.equals(tagToMatch)) { 
      boolean discard = true; 

      if (strict) { 
       if (currentData.equals(tagContents)) { // exact match 
        discard = false; 
       } 

      } else { 
       if (currentData.toLowerCase().indexOf(tagContents.toLowerCase()) >= 0) { // matches occurrence of substring 
        discard = false; 
       } 
      } 

      if (discard) { 
       skip = true; 
      } 
     } 

    } 
...  

当找到结束标签时调用它。如果我们愿意,我们现在可以将它附加到我们正在建立的文档中。

... 
    @Override 
    public void endElement(String uri, String localName, String qName) throws SAXException { 

     // Rebuild the XML if it's a node we didn't skip 
     if (qName.equals("Movie")) { 
      if (!skip) { 
       result.add(contents.insert(0, "<Movie>").append("</Movie>").toString()); 
      } 

      // reset the variables so we can check the next node 
      contents = null; 
      skip = false; 
     } else if (contents != null && !skip) { 
      contents.append("<").append(qName).append(">") 
        .append(currentData) 
        .append("</").append(qName).append(">"); 
     } 

     currentElement = null; 
    } 
...  

最后,在文档结束时调用这个函数。我也用它在最后打印结果。

... 
    @Override 
    public void endDocument() throws SAXException { 
     StringBuilder resultFile = new StringBuilder(); 
     resultFile.append("<?xml version=\"1.0\" encoding=\"UTF-8\"?>"); 
     resultFile.append("<Movies>"); 
     for (String childNode : result) { 
      resultFile.append(childNode.toString()); 
     } 
     resultFile.append("</Movies>"); 

     System.out.println("=== Resulting XML containing Movies where " + tagToMatch + " is one of " + tagContents + " ==="); 
     System.out.println(resultFile.toString()); 
    } 

} 

这是一个加载该文件并使用事件处理程序提取数据的小型Java应用程序。

public class SAXReaderExample { 

    public static final String PATH = "src/main/resources"; // this is where I put the XML file 

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException { 

     // Obtain XML Reader 
     SAXParserFactory spf = SAXParserFactory.newInstance(); 
     SAXParser sp = spf.newSAXParser(); 
     XMLReader reader = sp.getXMLReader(); 

     // Instantiate SAX handler 
     ExtractMovieSaxHandler handler = new ExtractMovieSaxHandler(); 

     // set search criteria 
     handler.setSearchCriteria("Director", "Kubrick", false); 

     // Register handler with XML reader 
     reader.setContentHandler(handler); 

     // Parse the XML 
     reader.parse(new InputSource(new FileInputStream(new File(PATH, "source.xml")))); 
    } 
} 

这里是生成的文件,处理后:

<?xml version="1.0" encoding="UTF-8"?> 
<Movies> 
    <Movie> 
     <Imdb>tt0062622</Imdb> 
     <Title>2001: A Space Odyssey</Title> 
     <Director>Stanley Kubrick</Director> 
     <Year>1968</Year> 
     <Duration>160</Duration> 
    </Movie> 
    <Movie> 
     <Imdb>tt0066921</Imdb> 
     <Title>A Clockwork Orange</Title> 
     <Director>Stanley Kubrick</Director> 
     <Year>1972</Year> 
     <Duration>136</Duration> 
    </Movie> 
    <Movie> 
     <Imdb>tt0081505</Imdb> 
     <Title>The Shining</Title> 
     <Director>Stanley Kubrick</Director> 
     <Year>1980</Year> 
     <Duration>144</Duration> 
    </Movie> 
    ... 
</Movies> 

你的情况可能会有所不同,但这个例子显示了你也许可以适应您的问题的通用解决方案。您可以在关于SAX和JAXP的教程中找到更多信息。

1

500Mb在使用XSLT可以实现的范围内。这取决于您想花费多少努力来开发最佳解决方案:即哪个更贵,您的时间或机器的时间?

+0

好吧,很明显,机器的时间更加广泛,因为在我完成开发之后,它会按照我的解决方案进行工作:) 虽然,我的问题不是关于XSLT的限制,而是关于上下文中DOM的限制大小... – theexplorer 2015-04-06 07:53:21

+0

我看不出为什么你想要使用DOM。如果您使用XSLT处理器,它将构建内存树,但大多数XSLT处理器具有比DOM更经济的内部树表示形式。 – 2015-04-06 18:31:18

+0

我只想知道DOM的限制,我没有说我想要使用它...我之前并不了解XSLT,但我现在正在调查它。我的问题依然存在 - 任何人都可以提供关于DOM解析器文件大小限制的信息吗? (用于教育目的)谢谢! – theexplorer 2015-04-06 19:53:16