2012-07-09 59 views
1

我刚刚在VB2010应用程序中使用iTextSharp解析PDF文档中的文本数据。该文档不包含任何图像或其他花哨的元素,只是文本。我读过一些文章,并使用了一些代码片段,它看起来很有前途。然而,我一直试图做的只是解析每个页面的正文,减去页眉或页脚。我没有找到任何有关该特定功能的指导。从PDF解析正文文本

当前使用此处找到的片段Reading PDF content with itextsharp dll in VB.NET or C#,但它解析页面中的所有文本。必须有一种方法来获得身体。或者至少我希望如此。

回答

2

PDF通常不包含关于包含文本的逻辑结构的信息。

因此在PDF中没有页眉,页脚,正文,段落和类似内容。只有一堆操作,比如“在这里画这个字形”,“移动到这个位置并在那里画出那组字形”。我写了字形而不是字符,因为PDF不需要包含可读的文本。只需要指定视觉外观。

有一个例外是Tagged PDF,但大多数野外PDF文件未加标签。

鉴于上述所有你可能用如下方法左:

  1. 摘自每一页的所有文字
  2. 分析课文,并找到类似部分在每一页的开始/结束
  3. 删除相似的零件

这是一个基于启发式的检测,所以它可能不会总是给出优秀的结果。

+0

谢谢,我很害怕,但我想我可以有足够的信息来完成这项任务。 – sinDizzy 2012-07-11 20:02:13