2013-05-01 78 views
0

我们假设,我正在访问大学网页。那里有许多教师资料。尽管这些页面在语法上没有关联,但它们在语义上是相关的。我如何衡量这种关系?其实我应该关注哪个参数来找到关系?如何测量两个网页之间的语义关系

回答

0

This SO帖子回答了如何计算短语之间的语义相似度。 在你的情况下,你只需要将不同的页面表示为文档并遵循相同的方法。

在你的情况下,你的算法可以利用更多的信息,如页面或出版物之间的链接(在研究人员的情况下)。我希望链接有助于有点...

0

这里一个简单但非常好的算法:

肯定的页面为每个教师和链接的网页,包含语义特征这位教授文本。 假设您创建了一系列由教授页面上的文本和链接页面上的文本串联组成的单词(您可以继续连接文本以继续沿着链接到任意深度)。

现在,您可以基于使用向量空间模型提取的信息对教授进行聚类:每个教授都由一个向量表示,其组成部分是包含在提取的页面中的单词和与术语 - 频率相关的值。 余弦相似性将完成剩余的工作。

相关问题