2014-10-02 119 views
1

我想找到一种方法来获取所有传入链接到维基百科页面(从维基百科内的其他页面)的锚文本。我已经阅读了一些已经完成了这些信息实验的论文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他们似乎没有解释他们如何获得这些信息。我知道有一种资源叫做YAGO,它提供了链接到相关页面的维基百科页面,但似乎没有提供锚文本。任何人都可以提出一种获取这些信息的方式吗获取Wikipedia锚文本

+0

也许他们已经简单地下载了转储并解析了文件以提取链接。 – Bergi 2014-10-03 01:01:35

+1

你可以(并且在这种情况下**应该**)总是问作者。他们的联系信息在论文中。也许他们甚至会给你发送他们的数据! – Bergi 2014-10-03 01:10:10

回答

0

您需要解析wikipedia页面的html文本。

这种锚文本就像piped link format中的[链接|锚文本],您需要自己实施parser才能找到。

您可以找到计算器后here