如何在文档聚类后在特定集群中实现查询搜索？

-1

Cluster : class 

DocumentList : List<Document> 
centroidVector : Map<String,Double>

现在的问题是，当搜索查询它被解析为一个文件，然后制作成一个文档对象，加入到documentIndex和其索引被构造一个类连同其他文件。我这样做是因为它必须经历相同的过程，即标记，词干等。但是现在我想在查询向量最相似的特定聚类中实现查询搜索，即点积〜0.5 -1。所以我将不得不在查询向量和集群向量之间做点积。但我不知道如何实现它，因为索引是在内存中创建的，并不存储在数据库中。仍在这样做的过程中。

谢谢

来源

2012-07-19 YuNo

那么你的问题到底是什么呢？请重新考虑你的问题，你期待什么作为答案？到目前为止，你没有得到太多的答案，对吧？那是因为你的问题含糊不清，“我该怎么办”，而不是“我该如何解决这个问题”。这不是*工作*这样的互联网网站！ – 2012-07-19 18:50:56

我应该将聚类向量保存在某个地方，以便在加载查询时，我可以取点产品并只加载那些文档以便在集群中存在索引？它可以完成而不储蓄？因为问题的关键是集群在查询文档被解析时与其一起构建。 – YuNo 2012-07-19 18:59:14

取决于您未提供的100个因素。 – 2012-07-19 19:10:55

聚类并不意味着搜索（即索引等）。这是一个分析步骤，旨在找到数据集中可能的未知结构，而不是更快地检索信息。你可以利用结构有时更快的搜索，但你需要一个可以利用这一点的索引。

只要做一个索引，如果你想做相似搜索！然后尝试通过进行一些聚类来改进索引。

来源

2012-07-19 18:56:02

数据集中可能存在未知结构的含义是什么？ – YuNo 2012-07-19 19:09:30

这是一个*探索性*方法。你想*探索*你的数据。 – 2012-07-19 19:09:46

哦对。我的看法是，有可能让IR更快。谢谢。对于我发布的模糊问题感到抱歉。不会再这样做，并在下一次得到它。 – YuNo 2012-07-19 19:12:54

如何在文档聚类后在特定集群中实现查询搜索？

回答

相关问题