2008-10-23 94 views
3

我认为有丰富的自然语言数据与诸如reddit或digg或news.google.com等网站相关联。自然语言/文字挖掘和Reddit /社会新闻网站

我已经做了一点与文本挖掘研究,但无法找到我可以如何使用这些工具来解析像reddit的东西。

你可以想出什么样的应用程序?

+0

双重检查标记拼写,还要注意语法是多字标记的短划线,即'自然语言' – unmounted 2008-10-23 04:53:38

回答

3

我在过去发现,在Reddit或Digg等网站上挖掘数据的最佳方式是首先使用他们提供的开发者API。通常,您对某个主题或趋势有兴趣,获取该数据的唯一方法是通过建立的公共界面。您还可以解析提要,并将它们结合起来以揭示90%的想知道的内容。如果您想对通过API无法提供的数据进行深入研究,那么您应该准备花费大量时间围绕像cURL这样的工具编写自定义包装。如果你有预算,你也可以打电话给他们,询问他们是否提供用户的付费研究数据。

1

我会从RSS开始,之后我可能会使用Nutch;实际上对数据做什么更多的是你的呼叫。

0

这些都是好主意。我可以得到这些数据,但是可以在它周围构建哪些应用程序?