像文档搜索页面

我已经彻底搜查互联网（与本网站），但还没有找到一个（完整的）答案，至今尚未能实现自己的解决方案。如果看起来我错过了已发布在Stackoverflow上的解决方案;我提前道歉。

我的公司扫描所有收到的邮件。这些由ABBYY Finereader进行OCR数据处理。所有这些文档驻留在数据中心的NAS中，并可通过WEBDAV连接进行访问。我想要的是为所有这些文件建立索引（让我们现在只使用PDF），并让它们可供搜索，并可通过谷歌搜索网站访问，其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载。

这是问题; 我已经设置了SOLR/Tika并且可以索引一个pdf文件，搜索它并找到结果。索引扫描文档保存到的整个文件夹的最佳方式是什么？理想情况下，所有这些都运行在Linux服务器上，这样我就可以挂载这个目录。

我该如何看这个目录中的新文件，以便它们被自动编入索引？

如何将文件移动到根目录（或删除/重命名）中的（新）目录并自动更新索引时跟踪文件？

什么是为用户创建前端的首选方式？我可以自定义Solr/browse，但我宁愿使用Rails来构建站点（因为我熟悉它），并且希望向查询数据发送一个请求给Solr，并获得一个响应/数组返回给用户。

最后但并非最不重要; 如果有人对提供此功能的商业产品有很好的建议，我想听听它。我无意重新发明轮子，但是我的搜索并没有让我有太多的想法。

来源

2014-10-22 Maarten van Rijn

你一次问太多问题。所以，你会得到一堆追逐的指针，希望对其他人也有用。

你不能“定制的Solr /浏览” - Solr的是不安全的直接暴露给用户的应用程序
您可以使用FileListEntityProcessor（与rootEntity = FALSE）拿起嵌套实体使用DataImportHandler（DIH）里面的文件和TikaEntityProcessor来索引一堆文件。但是，这不会帮助您删除已删除的文件。也许你需要一个存根文件或类似的东西。
ManifoldCF使用Solr的，它的文件系统适配器可能会更聪明比谛
Lucidworks是使用Solr内商业产品，可能有文件系统适配器和大量的其他功能，你可以看看
Cloudera是商业产品与大数据管道（其中包括文件注入）并使用Solr。重要的是，它也预先配置了Hue，这可能会给你至少一个版本的界面。

来源

2014-10-22 20:23:59

像文档搜索页面

回答

相关问题