2011-05-18 67 views
0

我想基于排序RegEx之后拆分PDF:我应该从哪里开始?

[AZ]的正则表达式来分割庞大的PDF文件[AZ] +(\ S-\ S)[AZ] [AZ] +

由于每个实例后这开始了一个新的'部分',我需要将其分解成它自己的文档。

我不知道从哪里开始,或者先看什么语言。

任何帮助,将不胜感激。

+0

我想你会更好地使用一个库来分割PDF,因为PDF的专有结构太复杂了,不能被正则表达式分割。 – 2011-05-18 21:48:37

+0

PHP中的'fread'怎么样? – 2011-05-18 22:02:36

+0

没有机会。 PDF包含多种不同格式的压缩数据。直接搜索PDF文件的正则表达式是错误的方法。 – 2011-05-19 17:42:31

回答

1

在字节流级别拆分PDF不会生成有效的PDF。

现在我们已经摆脱了这种困境,您需要一个库(Java中的Apache PDFBox,python中的pyPDF),它可以解析PDF并让您迭代文本,应用您的正则表达式。一旦找到了使用该库的文本来提取相关的页面范围。

0

PDF包含文件结构的alsorts,它不只是一个网页集合。所以你不能把它分解。