2012-04-13 1958 views
21

是否有可能使用PdfSharp从PDF文件中提取纯文本? 我不想使用iTextSharp,因为它的许可证。C#使用PdfSharp从PDF中提取文本

感谢您的回复。

编辑:我知道这是可能的。但我该怎么做?

+0

想知道,为什么downvotes? (有没有澄清的意见,以帮助作者改善问题。) – 2012-12-11 07:28:01

回答

6

PDFSharp提供了从PDF中提取文本的所有工具。使用ContentReader类访问每个页面内的命令并从TJ/Tj运算符中提取字符串。

我已经上传了一个简单的实现github

+1

在许多PDF CString.Value返回只是一些垃圾(例如使用OpenOffice.org创建一个PDF,并尝试使用此方法导入它)。 – 2016-08-20 14:52:29

11

我已经以某种方式实现了它与David做的相似。 这里是我的代码:

{ 
     // .... 
     var page = document.Pages[1]; 
     CObject content = ContentReader.ReadContent(page); 
     var extractedText = ExtractText(content); 
     // ... 
    } 

    private IEnumerable<string> ExtractText(CObject cObject) 
    { 
     var textList = new List<string>(); 
     if (cObject is COperator) 
     { 
      var cOperator = cObject as COperator; 
      if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || 
       cOperator.OpCode.Name == OpCodeName.TJ.ToString()) 
      { 
       foreach (var cOperand in cOperator.Operands) 
       { 
        textList.AddRange(ExtractText(cOperand)); 
       } 
      } 
     } 
     else if (cObject is CSequence) 
     { 
      var cSequence = cObject as CSequence; 
      foreach (var element in cSequence) 
      { 
       textList.AddRange(ExtractText(element)); 
      } 
     } 
     else if (cObject is CString) 
     { 
      var cString = cObject as CString; 
      textList.Add(cString.Value); 
     } 
     return textList; 
    } 
+0

你不应该去掉StringBuilder,PDFs是相当大的,这个解决方案会导致巨大的不必要的内存消耗。 – 2016-08-20 14:37:01

19

拿了Sergio的答案,并取得了一定的扩展方法。我也将字符串的积累变成了一个迭代器。

public static class PdfSharpExtensions 
{ 
    public static IEnumerable<string> ExtractText(this PdfPage page) 
    {  
     var content = ContentReader.ReadContent(page);  
     var text = content.ExtractText(); 
     return text; 
    } 

    public static IEnumerable<string> ExtractText(this CObject cObject) 
    { 
     if (cObject is COperator) 
     { 
      var cOperator = cObject as COperator; 
      if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || 
       cOperator.OpCode.Name == OpCodeName.TJ.ToString()) 
      { 
       foreach (var cOperand in cOperator.Operands) 
        foreach (var txt in ExtractText(cOperand)) 
         yield return txt; 
      } 
     } 
     else if (cObject is CSequence) 
     { 
      var cSequence = cObject as CSequence; 
      foreach (var element in cSequence) 
       foreach (var txt in ExtractText(element)) 
        yield return txt; 
     } 
     else if (cObject is CString) 
     { 
      var cString = cObject as CString; 
      yield return cString.Value; 
     } 
    } 
} 
+0

我正在使用PDFsharp库,但它表示ContentReader类不在context.What可能是这个问题? – 2016-08-31 13:33:25

+0

ContentReader类不在上下文中。 – 2016-09-01 20:42:49

+2

无法抗拒。 IDK意味着什么或如何解决它。我尽量避免使用PDF,就像瘟疫一样,因为与它们一起工作的工具都是废话,假装人类可读的格式是机器可读的,这完全是愚人节的差事。 – 2016-09-01 20:43:52