网络爬虫类型程序 - 维基度分离

我得到了一个有趣的小项目灵感来自今日的xkcd工具提示。基本上，前提是对于任何维基百科文章，如果您一次又一次地遵循第一个链接（不在括号内或斜体内），最终您将看到哲学文章。网络爬虫类型程序 - 维基度分离

我正在尝试编写一个基本上随机选择一个维基百科页面的程序（可能使用http://en.wikipedia.org/wiki/Special:Random网址），然后确定页面来自哲学的“深度”。

我用C语言（我最熟悉的语言）打开了一个程序，为了让计划顺利并迅速实现，除了两个“次要”（又名重要位）问题之外，我知道如何去做大部分工作：

char *grab_first_link(page, int n){ 
    //return url of 1st link not in italics or inside parentheses 
} 

void get_random_page{ 
    //go to http://en.wikipedia.org/wiki/Special:Random 
    //wait 2 seconds 
    //return the URL generated by the random page 
}

所以基本上我正在寻找一个图书馆，可以帮助简单的HTML页面。以及如何根据上述规则获得正确链接的一些提示。

（还 - 我肯定有一百万+ 1的方式来更有效地做到这一点/容易，我只是好奇，如果我能得到这一切/大都用C完成）

感谢您的帮助，提示，链接或点在正确的方向。

来源

2011-05-26 tomatosource

感谢编辑我永远无法得到的代码标记工作... – tomatosource 2011-05-27 01:46:50