2010-02-19 94 views

回答

3

来自Zend背景,我通常推荐使用Zend_Search_Lucene。 XPDF的例子非常简单,看起来很简单。 XPDF被授权为GPL - 如果这符合您的需求,请参加#1!

ZF很容易集成到您的Symfony项目中,例如,为Twitter Call

2

有很多从PDF中提取文本内容的库。有了这些,你就需要创建一个包含内容的lucene文档。最有用的将是那些已经有lucene集成。

阿帕奇PDFBox可以create a lucene文件直接从PDF文件。它将包含PDF元数据字段以及文本内容。