从PDF解析正文文本

我刚刚在VB2010应用程序中使用iTextSharp解析PDF文档中的文本数据。该文档不包含任何图像或其他花哨的元素，只是文本。我读过一些文章，并使用了一些代码片段，它看起来很有前途。然而，我一直试图做的只是解析每个页面的正文，减去页眉或页脚。我没有找到任何有关该特定功能的指导。从PDF解析正文文本

当前使用此处找到的片段Reading PDF content with itextsharp dll in VB.NET or C#，但它解析页面中的所有文本。必须有一种方法来获得身体。或者至少我希望如此。

来源

2012-07-09 sinDizzy

PDF通常不包含关于包含文本的逻辑结构的信息。

因此在PDF中没有页眉，页脚，正文，段落和类似内容。只有一堆操作，比如“在这里画这个字形”，“移动到这个位置并在那里画出那组字形”。我写了字形而不是字符，因为PDF不需要包含可读的文本。只需要指定视觉外观。

有一个例外是Tagged PDF，但大多数野外PDF文件未加标签。

鉴于上述所有你可能用如下方法左：

摘自每一页的所有文字
分析课文，并找到类似部分在每一页的开始/结束
删除相似的零件

这是一个基于启发式的检测，所以它可能不会总是给出优秀的结果。

来源

2012-07-10 06:43:42 Bobrovsky

谢谢，我很害怕，但我想我可以有足够的信息来完成这项任务。 – sinDizzy 2012-07-11 20:02:13

从PDF解析正文文本

回答

相关问题