2012-08-16 52 views
0

我试图从solr中的搜索结果中找到页码。我发现将每个页面索引为一个独立的solr文档都可以工作。但我似乎无法找到从PDF文件索引单个页面的方法。如何将pdfdocument的每个页面索引为独立的Solr文档

有没有人找到一种方法索引文件的单页索尔?

+0

在这里看到:http://find.searchhub.org/document/2d5774edaf7df967#584a8c3c378ba4c – 2012-08-16 12:17:29

回答

1

你可以使用任何的库,例如pdfbox为了分别提取每一页的文本并提交不同的文件到Solr