如何使用apache poi从.doc文件中提取文本？

我用下面的一些代码段从.doc文件中提取文本如何使用apache poi从.doc文件中提取文本？

HWPFDocument document = new HWPFDocument(new FileInputStream(inputFile)); 
Range range = document.getRange(); 
     int len = range.numParagraphs(); 
     StringBuilder builder = new StringBuilder(); 

     for (int i = 0; i < len; i++) { 
      builder.append(range.getParagraph(i).text()); 
     }

和

HWPFDocument document = new HWPFDocument(new FileInputStream(inputFile)); 
WordExtractor wordExtractor = new WordExtractor(document); 
     String[] paragraphs = wordExtractor.getParagraphText(); 
     StringBuilder builder = new StringBuilder(); 
     for (String p : paragraphs) { 
      builder.append(p); 
     }

然而，他们两人总是输出一些奇怪的字符。例如：PAGEREF_Toc351848910\h10HYPERLINK\l_Toc351848911CITATIONPla\l1033[HYPERLINK\l"Pla"13]。所以，我想知道从哪里他们是如何从.doc文件中提取文本提前

来源

2013-03-23 thoitbk

您显示的*奇怪*文本是一个目录输入一个TOC参考和一个引文。对不起，我不知道如何删除它们。 – grahamj42 2013-03-23 20:45:12

您是否尝试过使用[WordExtractor＃stripFields（String）]（http://poi.apache.org/apidocs/org/apache/poi/hwpf/extractor/WordExtractor.html#stripFields（java.lang.String））删除它们？ – Gagravarr 2013-03-24 21:09:18

它的工作原理。非常感谢 – thoitbk 2013-03-28 17:55:28

感谢时将其删除，我希望这可以给你一些启示。

private static void ConvertDoctoPdf(String src, String outputPdf) throws Exception { 

     try { 
      Document pdfdoc = new Document(); 

      HWPFDocument doc = new HWPFDocument(new FileInputStream(src)); 

      //create wordextractor object to wrap the extracted word from HWPFDocument object. 
      WordExtractor we = new WordExtractor(doc); 

      OutputStream outputFile = new FileOutputStream(new File(desc)); 

      //create a pdf writer object to write text to mypdf.pdf file 
      PdfWriter.getInstance(pdfdoc, outputFile); 

      pdfdoc.open(); 

      Paragraph para = new Paragraph(); 

      //Collecting all paragraphs 
      String[] paragraphs = we.getParagraphText(); 

      for (int i = 0; i < paragraphs.length; i++) { 
       //add the paragraph to the document 
       para.add(paragraphs[i]); 
       //para.add(new Chunk(Chunk.NEWLINE)); 
       } 
      //print all paragraph together 
      System.out.println(para);  
      //Add all paragraph together to pdfdoc document. 
      pdfdoc.add(para); 

      pdfdoc.close(); 
      we.close(); 
      } catch (Exception e) { 
      e.printStackTrace(); 

     } 
    }

来源

2017-02-16 10:31:58

这似乎是创建一个PDF文档 - 如何以任何方式解决原始问题？ – Gagravarr 2017-02-16 11:56:15

'''System.out.println（para）; ''' 它打印提取的段落。 – 2017-02-17 04:30:15

如何使用apache poi从.doc文件中提取文本？

回答

相关问题