2012-03-06 93 views
1

我尝试在我的项目中使用JWPL API。我需要在某个消歧页面中找到所有的手段。例如,关于Apple的消歧页面。如何在维基百科消歧页面中获得所有手段?

如果您能告诉我有关此事的信息,我将不胜感激!

+0

我不知道JWPL,但它应该足以获得该网页中文章的所有链接。 – svick 2012-03-06 09:46:25

+0

给定一个词,你能得到那个消歧义页吗?如果可以的话,你能告诉我如何? – user1210738 2012-03-12 01:43:21

+0

你可以尝试“Term”,然后选择“Term(disambiguation)”。当它位于类别[所有消歧页面](http://en.wikipedia.org/wiki/Category:All_disambiguation_pages)中时,您确定该页面是消歧页面。 – svick 2012-03-12 02:29:10

回答

2

我不知道你是否仍然需要和回答,但总之,如果你想收集给定单词的所有可能的含义,不要使用消歧义页面。 为什么?因为它们格式不正确,并且通常包含很多与单词的某些含义不相符的链接。即使你只解析以*开头的第一行并收集该行的第一个链接,你仍然会得到错误的结果。 相反,您应该收集维基百科中的所有链接,并将它们的锚文本存储为关键字和目标文章,尽可能为该关键字指定含义。作为一个副作用,你可以得到关于一个单词对应某个特定含义的频率的很好统计数据。可能含义的另一个资源是重定向页面和文章标题。例如:您可以收集具有相同实体但消歧部分不同的所有文章,并将其用作该实体的可能含义。

如果你想要更详细的解释,只需在评论中回答,我还可以提供一些关于如何收集和索引的代码,包含维基百科中包含的所有重定向,实体和链接文本的可能含义。

+0

你从维基百科转储中获得所有链接吗?看起来不幸的是,pagelinks.sql转储不包括锚文本... – pnsilva 2012-08-02 13:39:37

+0

我使用jwpl api,它需要pages-articles.xml,pagelinks.sql和categorylinks.sql并将它们加载到数据库中,您可以然后用api访问它们。 http://code.google.com/p/jwpl/wiki/DataMachine – samy 2012-08-05 11:35:23