日安创建谷歌,像文档搜索页面
我已经彻底搜查互联网(与本网站),但还没有找到一个(完整的)答案,至今尚未能实现自己的解决方案。 如果看起来我错过了已发布在Stackoverflow上的解决方案;我提前道歉。
我的公司扫描所有收到的邮件。 这些由ABBYY Finereader进行OCR数据处理。 所有这些文档驻留在数据中心的NAS中,并可通过WEBDAV连接进行访问。我想要的是为所有这些文件建立索引(让我们现在只使用PDF),并让它们可供搜索,并可通过谷歌搜索网站访问,其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载。
这是问题; 我已经设置了SOLR/Tika并且可以索引一个pdf文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方式是什么? 理想情况下,所有这些都运行在Linux服务器上,这样我就可以挂载这个目录。
我该如何看这个目录中的新文件,以便它们被自动编入索引?
如何将文件移动到根目录(或删除/重命名)中的(新)目录并自动更新索引时跟踪文件?
什么是为用户创建前端的首选方式?我可以自定义Solr/browse,但我宁愿使用Rails来构建站点(因为我熟悉它),并且希望向查询数据发送一个请求给Solr,并获得一个响应/数组返回给用户。
最后但并非最不重要; 如果有人对提供此功能的商业产品有很好的建议,我想听听它。我无意重新发明轮子,但是我的搜索并没有让我有太多的想法。