2016-09-14 56 views
1

我有一个文本文件,它看起来像一个XML文件,但它不是一个有效的XML文件。 我该如何解析它?我正在使用Java。 我需要最后一个标签的内容。TEXT文件解析Java

示例文件:

<h4 class="is24qa-objektbeschreibung-label padding-top-xl margin-bottom-    s">Objektbeschreibung</h4> 
<div class="is24-text margin-bottom"> 
<pre class="is24qa-objektbeschreibung">TEST TEST TEST </pre> 

回答

1

您可以使用jsoup这种方式。

package com.company; 

import java.io.*; 

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class Main { 
    public static void main(String[] args) { 
     String line; 
     String cline = ""; 
     Document doc; 
     try { 
      BufferedReader br = new BufferedReader(new FileReader("input.txt")); 

      while ((line = br.readLine()) != null) { 
       cline = line; 
      } 

      doc = Jsoup.parse(cline); 
      Elements elements = doc.select("body").first().children(); 
      for (Element el : elements) 
       System.out.println("content: " + el.text()); 

     } catch (IOException e) { 
      e.printStackTrace(); 
     } 

    } 

} 

input.txt中

<h4 class="is24qa-objektbeschreibung-label padding-top-xl margin-bottom-    s">Objektbeschreibung</h4> 
<div class="is24-text margin-bottom"> 
<pre class="is24qa-objektbeschreibung">TEST TEST TEST </pre> 

输出

/usr/lib/jvm/java-1.8.0-openjdk-amd64/bin/java - 
content: TEST TEST TEST 

Process finished with exit code 0 
+1

感谢很多:) – CyKon