2012-03-18 81 views
1

我写一个用户应用程序,获取用户为当前打开的维基百科页面输入。我写了一段代码,将其作为模块的输入,并使用网页浏览和自然语言处理生成与该特定文章相关的关键字列表。如何从当前维基百科文章中获取相关主题?

我想通过提供除了我已识别的关键字之外的一组相关主题来扩展应用的功能,这些主题可能是用户感兴趣的。维基百科提供的任何API都可以做到这一点。如果没有,任何人都可以指出我应该看什么(因为我必须从头开始编写代码)。此外,我将欣赏任何指示任何算法,将训练机器识别主题地图的指针。我寻求任何纸张而是一些基本的东西

这样总结实际的实施,

  1. 我需要的方式找话题在维基百科上有关当前文章(类别也会做)
  2. 我也会理解的样本算法训练机器识别,通常是相关的,聚集的话题。

PS。请具体说明,因为我已经通过一些 欣赏它明显的可能性研究谢谢

+0

如果您想获得某篇文章的分类,那么,是的,这些都可以通过[API](http://www.mediawiki.org/wiki/API:Main_page)获得。 – svick 2012-03-18 18:21:48

+0

我已经纳入,但我想要更多类似于当前文章的文章名称。在类别中,如果我只是得到相关的类别,那也可以。 – 2012-03-19 04:12:03

回答

0

你能凑够的类别,如果你想。如果你正在使用python,你可以直接从他们的API读取wiki文本,并使用mwlib解析文章并找到链接。

更有趣但更难实施的方法是创建相关术语的聚类,并给出从文章中提取的术语列表,找到与它们最接近的术语。

0

“又见”是一款经常出现在维基百科页面。 它下面结构类似的例子,从[条(出版)]:

==See also== 
* [[Article directory]] 
* [[Electronic article]] 

然后,您应该解析wikicode(你可以采取通过转储或MediaWiki的API,如前面的回答暗示),并使用上述文章。

另一种方法是直接使用维基百科类,there are APIs for that

相关问题