2009-07-18 126 views
4

我有一个应用程序需要将.doc文件上传到它。这些文件应该是索引,整个文件集合应该是可搜索的。这将运行在Windows服务器上,不使用Word安装,使用IIS和SqlServer,但我宁愿不绑定到SqlServer的全文索引。如何索引和搜索.doc文件

我在考虑使用Lucene.Net作为索引部分,并想知道从.doc文件中获取文本的最佳方法是什么。我大概可以通过阅读整个流来提取文本,然后使用regEx来提取任何常规字符,但这看起来很重要并且容易出错。

我看到一篇关于使用iFilters的文章,听起来很有希望,但我想我会把它放在那里,因为它不是我熟悉的东西。

P.S.如果它很重要,这些.doc文件将在其中包含邮件合并字段,并且没有其他当前用于.doc格式的替代方案。

回答

3

就一个不需要外部程序的解决方案而言,看起来iFilter解决方案就是要走的路(即使您可能将其视为外部程序)。

这里有一个简单的CodePlex文章和代码就可以怎么做:http://www.codeproject.com/KB/cs/IFilter.aspx

0

也许您想结算Solr

+0

貌似需要的Apache。我们正在运行IIS。 – Jared 2009-07-18 22:40:14

1

在我们基于PHP的应用程序中,我们总是使用与此类似的外部程序:doc2txt。然后我们将文本保存到数据库中。如果您在Google上搜索“doc2txt”,您会发现许多不同的程序完全相同。只要选择一个最适合你的人。