2011-12-26 99 views
0

我在java中有一组文本文件。我必须使用计算机来识别最重要的文件(就像专家会识别的那样)。重要文件的识别

例如。我有10本关于java的书,系统将Java完整引用标识为最重要的文档或最相关的文档(基于与关于java的维基百科页面的相似性)

一种方法是获取参考文档并找到相似性在本文件和手头文件之间(如上例所述)。并提供一个结果说明具有最大相似性的是最重要的文件。

我想确定其他更有效的方法来执行此操作。 请提供其他找到相关文件的方法(如果可能的话,以无人监督的方式)。

回答

0

我认为另一种机制是,有一个单词词典和与每个文档相关联的排名图。

例如,在Java完整的参考书案例中,会有一个关键字词典及其排名。

Java的10 J2EE的5 J2SDK-10 Java5-10等,

注意:如果您的文件是动态流和名称也是动态的,我不知道如何处理它。

+0

这听起来不错。但在这种情况下,用户必须知道至少一组少数关键字,而如果他有一个参考,他不需要有关于该领域的任何知识。 – siddharth 2011-12-26 05:20:16

+0

对不起,我没有得到您的评论。但我想补充一些说明。如果这个上下文中的“用户”是文档上传者,那么他们需要知道他们的文档应该显示哪些关键字。如果用户与文档上传者不同,他们知道他们在寻找什么(另一方面,文档上传者需要映射最合适的关键字)。这就像我们如何写博客添加关键字一样。 – kosa 2011-12-26 05:25:11

+0

如果我们使文档上传更容易,该怎么办。他不需要知道关键词。让用户键入关键词,我们可以让系统匹配文档(就像搜索引擎的工作方式一样)。相似度最大的那个可以被判断为最好的。你认为这会起作用吗? – siddharth 2011-12-26 05:36:15