2014-10-22 82 views
0

日安创建谷歌,像文档搜索页面

我已经彻底搜查互联网(与本网站),但还没有找到一个(完整的)答案,至今尚未能实现自己的解决方案。 如果看起来我错过了已发布在Stackoverflow上的解决方案;我提前道歉。

我的公司扫描所有收到的邮件。 这些由ABBYY Finereader进行OCR数据处理。 所有这些文档驻留在数据中心的NAS中,并可通过WEBDAV连接进行访问。我想要的是为所有这些文件建立索引(让我们现在只使用PDF),并让它们可供搜索,并可通过谷歌搜索网站访问,其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载。

这是问题; 我已经设置了SOLR/Tika并且可以索引一个pdf文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方式是什么? 理想情况下,所有这些都运行在Linux服务器上,这样我就可以挂载这个目录。

我该如何看这个目录中的新文件,以便它们被自动编入索引?

如何将文件移动到根目录(或删除/重命名)中的(新)目录并自动更新索引时跟踪文件?

什么是为用户创建前端的首选方式?我可以自定义Solr/browse,但我宁愿使用Rails来构建站点(因为我熟悉它),并且希望向查询数据发送一个请求给Solr,并获得一个响应/数组返回给用户。

最后但并非最不重要; 如果有人对提供此功能的商业产品有很好的建议,我想听听它。我无意重新发明轮子,但是我的搜索并没有让我有太多的想法。

回答

0

你一次问太多问题。所以,你会得到一堆追逐的指针,希望对其他人也有用。

  1. 你不能“定制的Solr /浏览” - Solr的是不安全的直接暴露给用户的应用程序
  2. 您可以使用FileListEntityProcessor(与rootEntity = FALSE)拿起嵌套实体使用DataImportHandler(DIH)里面的文件和TikaEntityProcessor来索引一堆文件。但是,这不会帮助您删除已删除的文件。也许你需要一个存根文件或类似的东西。
  3. ManifoldCF使用Solr的,它的文件系统适配器可能会更聪明比谛
  4. Lucidworks是使用Solr内商业产品,可能有文件系统适配器和大量的其他功能,你可以看看
  5. Cloudera是商业产品与大数据管道(其中包括文件注入)并使用Solr。重要的是,它也预先配置了Hue,这可能会给你至少一个版本的界面。