我正在编写一个内部应用程序,该应用程序包含多条文本信息以及有关这些文本的若干条数据。这些数据片段将按照输入顺序保存在数据库中(SQL Server,尽管可能会更改)。在C#中为信息检索应用程序编写倒排索引
我希望能够搜索这些信息中最相关的信息,其中最相关的信息将位于顶部。我最初研究使用SQL Server全文搜索,但它并不像我希望的那样灵活,因此我似乎需要开发自己的解决方案。
根据我所理解的需要是inverted index,然后根据所保存的附加信息的结果来恢复和修改所述倒排索引的内容(尽管目前这可以在以后作为我只是想倒排索引来索引数据库表/字符串提供的主要文本)。
我在Java中使用Hashtable编写代码时出现了一个错误,使用键作为单词和值作为单词出现的列表的值,但在所有的诚实中,我仍然相当新,在C#和在处理信息时只使用DataSets和DataTables。如果有要求,我会在清除这款笔记本电脑后立即上传Java代码。
如果从表格或字符串列表中获得一组条目,如何在C#中创建倒排索引,最好将其保存到DataSet/DataTable中?
编辑:我忘了提及,我已经尝试过Lucene和Nutch,但是需要我自己的解决方案来修改Lucene来满足我的需要需要比写一个倒排索引要长得多的时间。我将处理大量的元数据,一旦基本倒排索引完成后也需要处理,所以我现在需要的是使用倒排索引在一个区域上进行基本的全文搜索。最后,在倒序索引上工作并不是我每天都要做的事情,所以对它进行破解会很棒。
这是另一种基于泛型的C#倒置索引:http://www.aleandmusic.com/InvertedIndex.aspx – 2011-06-01 22:29:14