我试图实现一个将维基百科映射到图形中的系统,其中节点是文章标题,链接和边是它们之间的关系。计算Wikification中的关键字性
这个过程被称为wikification,已经是implemented。
我的方法到现在一直如下:
- 地图的所有节点为主题/分类/ pageform/surfaceform到Neo4j的数据库。
- 分配关系,为链接/重定向/ IS-一类
现在,我需要计算每一个环节的keyphraseness。该keyphraseness被定义为:
k(n) = no. of articles term appeared as alink/ no. of articles term appeared in
我想对如何存储我的链接,这样我可以计算与最短的时间复杂度keyphraseness一些建议。
现在,对于图中的每个节点,我都必须解析4M条以计算它。
注意:维基百科中的表面形式是一个重定向到另一个页面的页面。
为了快速做到这一点,您需要将单个节点的术语链接到表示文章的其他节点。这就要求你文字处理所有文章的所有内容。维基百科是巨大的。每篇文章中的术语数量可能很大。在你尝试这个之前,你应该仔细考虑,或者在一个小的子集上进行。像这样的图结构应该允许你写一个查询来计算k(n)。 '(t:Term) - [:in] - >(a:Article) - [:in] - >(c:Category)'假设术语节点上有一个“link”布尔属性,表明它是否属于链接与否。 – FrobberOfBits 2014-11-25 14:04:36