2011-05-03 72 views
3

我必须将PDF文件中的数据放入特定的数据库结构中。这要求我能够从PDF文件中获取某些数据。由于pdf没有任何标签等......我想知道是否有可能获得基于颜色的文本。举例来说,我想要所有的红色文本。或者我想要文档中的所有斜体文字。这在C#中可能吗?或者是否有其他方法可以轻松过滤PDF文档中的数据?如何从pdf中获取某种颜色的文本c#

enter image description here

+1

您使用的是什么PDF库? – Oded 2011-05-03 15:43:34

+0

iText pdf,但还没有找到我要找的功能。所以我对任何有关图书馆的建议都是开放的 – Ojtwist 2011-05-03 15:45:00

回答

0

我采取了不同的方法。我将pdf转换为excel文件。这是很容易搜索彩色文本

0

的iText的PdfTextExtractor(以及所有它依赖于代码)不不跟踪当前的颜色。哎哟。这不会是所有难以增加,所以你可以自己修改的iText:

  1. 添加笔触和填充颜色成员对GraphicState类(适当地更新各种构造函数)。你可能需要为'g','G','rg','RG','K'和'k'添加ContentOperator类(也可能是CS,cs,SC,sc,SCN,scn ),修改笔触和填充颜色。
  2. 将方法添加到TextRenderInfo以获取当前描边和填充颜色。