2012-07-19 45 views
-1

我有两个簇作为具有如何在文档聚类后在特定集群中实现查询搜索?

Cluster : class 

DocumentList : List<Document> 
centroidVector : Map<String,Double> 

现在的问题是,当搜索查询它被解析为一个文件,然后制作成一个文档对象,加入到documentIndex和其索引被构造一个类连同其他文件。我这样做是因为它必须经历相同的过程,即标记,词干等。但是现在我想在查询向量最相似的特定聚类中实现查询搜索,即点积〜0.5 -1。所以我将不得不在查询向量和集群向量之间做点积。但我不知道如何实现它,因为索引是在内存中创建的,并不存储在数据库中。仍在这样做的过程中。

谢谢

+0

那么你的问题到底是什么呢?请重新考虑你的问题,你期待什么作为答案?到目前为止,你没有得到太多的答案,对吧?那是因为你的问题含糊不清,“我该怎么办”,而不是“我该如何解决这个问题”。这不是*工作*这样的互联网网站! – 2012-07-19 18:50:56

+0

我应该将聚类向量保存在某个地方,以便在加载查询时,我可以取点产品并只加载那些文档以便在集群中存在索引?它可以完成而不储蓄?因为问题的关键是集群在查询文档被解析时与其一起构建。 – YuNo 2012-07-19 18:59:14

+0

取决于您未提供的100个因素。 – 2012-07-19 19:10:55

回答

2

聚类并不意味着搜索(即索引等)。这是一个分析步骤,旨在找到数据集中可能的未知结构,而不是更快地检索信息。 你可以利用结构有时更快的搜索,但你需要一个可以利用这一点的索引。

只要做一个索引,如果你想做相似搜索!然后尝试通过进行一些聚类来改进索引。

+0

数据集中可能存在未知结构的含义是什么? – YuNo 2012-07-19 19:09:30

+0

这是一个*探索性*方法。你想*探索*你的数据。 – 2012-07-19 19:09:46

+0

哦对。我的看法是,有可能让IR更快。谢谢。对于我发布的模糊问题感到抱歉。不会再这样做,并在下一次得到它。 – YuNo 2012-07-19 19:12:54