2017-04-18 267 views
2

我是一个Asp.Net核心项目。这个项目引用另一个库,我应该从pdf中提取信息。我正在使用itextsharp,但它似乎与.net核心不兼容。在Net Core中解析pdf

任何想法如何从PDF文件中提取文本?

+1

如果你在这里问这个问题,我们可以为第三方库的建议:HTTP:// softwarerecs .stackexchange.com/ –

+0

我投票结束这个问题作为题外话,因为它应该在软件建议 – VMAtm

+0

@VMAtm如果没有第三方库,最好能够做到这一点。如果这是我通过图书馆做的唯一方法。但我的问题不是关于在单独的库(或“最好的库”)之间进行选择。我的问题是如何去做。也许这需要一个图书馆,我还不知道。 – J4N

回答

0

如果你想编写自己的pdf解析器,你需要阅读所有不同版本的pdf文件格式。他们都是正式记录的here

+0

我并不认为这很复杂。有不同版本的修订版本很多,PDF包含1310页,我无法阅读所有这些(也没有实现所有这些版本)不是最简单的方法吗?我只是试图从PDF中获取一些文本... – J4N

+0

对于迟到的回复感到抱歉,但不幸的是,没有更简单的方法,只能使用已由其他人编写的库。你可能会写一半只能读取文本字段的解析器,但你仍然需要考虑格式的不同版本。这是除非你绝对确定你的解析器将阅读的pdf将是一个确切的版本。另外,还有一点需要注意的是,有时候文本不会以pdf的形式存储,而是以图像形式存储。 – Bobby

0

从PDF中提取文本是一项复杂的任务。如果没有图书馆,我不会推荐你这样做。

对于Asp.Net核心库,我可以推荐你Docotic.Pdf library(我为供应商工作)。库supports .NET Standard,可以用来提取不仅文本,但路径和图像。

下面是一些样本:

+0

谢谢你的回答,但它是一个非常小的开源项目,我在我的空闲时间,我无法承受你的许可证:( – J4N

+0

看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –