extacting pdf内容时保存textformat

我目前正试图取代现有的具有特定格式[如表和东西]的PDF中的某些词。我通过提取使用ITextSharp/c＃的单词并保存到一个字符串中，成功地替换了单词。后记，使用正则表达式应用替换操作。当我将这个结果保存为pdf文件时，原始格式不会被保存。extacting pdf内容时保存textformat

我尝试上传到Google驱动器并将文件转换为文档，但格式变得混乱。我正在考虑使用Acarbat SDK，但目前的版本安装似乎搞砸了，不会让我运行javascript

长话短说：我想知道如果Itextsharp具有功能提取文件的格式像一个CSS文件或有没有更好做这个操作的方法。

2016-01-22 MJC

您可以从PDF中提取更多信息，但实际编辑时缺少某些信息，如段落的开始和结束，页边距，列边框，表格单元格边框等...... PDF不是用于编辑的格式。 – mkl

您是否看过iText的示例（http://developers.itextpdf.com/examples/itext-action-second-edition/chapter-15）以修改页面内容和结构？这些例子使用Java，但转换为C＃应该相对简单。

由于您的文档格式化为表格，这听起来像是最有前途的方法，因为更改文本不应该移动页面上的其他文本。

2016-01-22 23:38:38 Herb

回答