我是一个Asp.Net核心项目。这个项目引用另一个库,我应该从pdf中提取信息。我正在使用itextsharp,但它似乎与.net核心不兼容。在Net Core中解析pdf
任何想法如何从PDF文件中提取文本?
我是一个Asp.Net核心项目。这个项目引用另一个库,我应该从pdf中提取信息。我正在使用itextsharp,但它似乎与.net核心不兼容。在Net Core中解析pdf
任何想法如何从PDF文件中提取文本?
如果你想编写自己的pdf解析器,你需要阅读所有不同版本的pdf文件格式。他们都是正式记录的here。
从PDF中提取文本是一项复杂的任务。如果没有图书馆,我不会推荐你这样做。
对于Asp.Net核心库,我可以推荐你Docotic.Pdf library(我为供应商工作)。库supports .NET Standard,可以用来提取不仅文本,但路径和图像。
下面是一些样本:
谢谢你的回答,但它是一个非常小的开源项目,我在我的空闲时间,我无法承受你的许可证:( – J4N
看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –
如果你在这里问这个问题,我们可以为第三方库的建议:HTTP:// softwarerecs .stackexchange.com/ –
我投票结束这个问题作为题外话,因为它应该在软件建议 – VMAtm
@VMAtm如果没有第三方库,最好能够做到这一点。如果这是我通过图书馆做的唯一方法。但我的问题不是关于在单独的库(或“最好的库”)之间进行选择。我的问题是如何去做。也许这需要一个图书馆,我还不知道。 – J4N