RegEx之后拆分PDF：我应该从哪里开始？

[AZ]的正则表达式来分割庞大的PDF文件[AZ] +（\ S-\ S）[AZ] [AZ] +

由于每个实例后这开始了一个新的'部分'，我需要将其分解成它自己的文档。

我不知道从哪里开始，或者先看什么语言。

任何帮助，将不胜感激。

我想你会更好地使用一个库来分割PDF，因为PDF的专有结构太复杂了，不能被正则表达式分割。 – 2011-05-18 21:48:37

PHP中的'fread'怎么样？ – 2011-05-18 22:02:36

没有机会。 PDF包含多种不同格式的压缩数据。直接搜索PDF文件的正则表达式是错误的方法。 – 2011-05-19 17:42:31

在字节流级别拆分PDF不会生成有效的PDF。

现在我们已经摆脱了这种困境，您需要一个库（Java中的Apache PDFBox，python中的pyPDF），它可以解析PDF并让您迭代文本，应用您的正则表达式。一旦找到了使用该库的文本来提取相关的页面范围。

2011-05-18 21:51:14

2011-05-18 22:10:33

PDF包含文件结构的alsorts，它不只是一个网页集合。所以你不能把它分解。

2011-05-19 06:51:32

回答