在Net Core中解析pdf

我是一个Asp.Net核心项目。这个项目引用另一个库，我应该从pdf中提取信息。我正在使用itextsharp，但它似乎与.net核心不兼容。在Net Core中解析pdf

任何想法如何从PDF文件中提取文本？

来源

2017-04-18 J4N

如果你在这里问这个问题，我们可以为第三方库的建议：HTTP：// softwarerecs .stackexchange.com/ –

我投票结束这个问题作为题外话，因为它应该在软件建议 – VMAtm

@VMAtm如果没有第三方库，最好能够做到这一点。如果这是我通过图书馆做的唯一方法。但我的问题不是关于在单独的库（或“最好的库”）之间进行选择。我的问题是如何去做。也许这需要一个图书馆，我还不知道。 – J4N

如果你想编写自己的pdf解析器，你需要阅读所有不同版本的pdf文件格式。他们都是正式记录的here。

来源

2017-04-19 14:00:13 Bobby

我并不认为这很复杂。有不同版本的修订版本很多，PDF包含1310页，我无法阅读所有这些（也没有实现所有这些版本）不是最简单的方法吗？我只是试图从PDF中获取一些文本... – J4N

对于迟到的回复感到抱歉，但不幸的是，没有更简单的方法，只能使用已由其他人编写的库。你可能会写一半只能读取文本字段的解析器，但你仍然需要考虑格式的不同版本。这是除非你绝对确定你的解析器将阅读的pdf将是一个确切的版本。另外，还有一点需要注意的是，有时候文本不会以pdf的形式存储，而是以图像形式存储。 – Bobby

从PDF中提取文本是一项复杂的任务。如果没有图书馆，我不会推荐你这样做。

对于Asp.Net核心库，我可以推荐你Docotic.Pdf library（我为供应商工作）。库supports .NET Standard，可以用来提取不仅文本，但路径和图像。

下面是一些样本：

来源

2017-04-19 19:17:06 Bobrovsky

谢谢你的回答，但它是一个非常小的开源项目，我在我的空闲时间，我无法承受你的许可证:( – J4N

看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –

在Net Core中解析pdf

回答

相关问题