2010-03-01 68 views
1

我正在写一些代码来计算有关单词用法的某些统计信息。从哪里可以获得去年的原始新闻文章?

有没有人知道在哪里可以找到一个数据库的原始新闻文章,从不同的主题在过去的一年(比如说)?他们最好是纯文本格式或XML。试图从随机网站上刮取内容不是一个好的选择。

我知道未来我可能会自己归档它们。不过,我需要用一堆现有的文章来启动这个过程......越多越好。

对于以简单解析形式容易获得的语料库数据集的任何其他想法也将被赞赏。

回答

0

你可以试试Internet Archive。他们有一个文本部分,但我不知道它是否有新闻。您也可以使用他们的Wayback机器使用他们的RSS提要从主要网站获取新闻文章。

+0

谢谢,这些都是不错的想法。 说实话,我很惊讶没有立即发现刚刚通过谷歌搜索的新闻文章的原始转储。我想它必须是版权相关的......但是那个时候什么时候停止了任何人。 – octonion 2010-03-01 23:02:54

+0

编程subreddit上的其他人也建议WikiNews。对于我正在做的事情,现在实际上可能更合适。 现在我只需要弄清楚如何从MediaWiki XML中提取文章 - 希望不要太难。 – octonion 2010-03-04 13:50:47