有更好的方法来收集Twitter数据吗？

我正在使用Twitter数据开展社区检测项目，我需要根据关系创建网络。我收集并过滤了200,000个UID。我的下一步是在他们之间建立一个朋友/追随者网络。有更好的方法来收集Twitter数据吗？

我正在使用Ruby脚本和Twitter Gem来收集，处理和存储数据。为了克服API调用限制，我使用Apigee代理，因此现在没有速率限制的问题。

的呼吁得到两个的UID之间的关系状态是：https://dev.twitter.com/docs/api/1/get/friendships/show

我需要加快收集数据的过程。目前我有很多脚本在我的终端中同时运行。我发现这种方法很难管理和扩展。有没有更快，更高效和更易于管理的方法来做同样的事情？或者我缺少一种完全不同的，更好的方法吗？

2012-02-24 s2n

如果1个回答没有帮助，考虑添加关于为什么你认为它是太长的信息。如果您有一堆运行simul的脚本，则作业控制工具或主脚本可能是合适的。鉴于您的项目的网络编程方面，我本以为会有红宝石来帮助解决这个问题。你在这方面的表现有多深。缩放可能意味着您需要查看GNU并行，Amazon Elastic Cloud或其他。此外，像Hadoop这样的大规模数据处理工具（几乎可以肯定需要在java或??中进行自定义编码）。祝你好运。 – shellter 2012-02-24 22:18:40

从查看你包含的dev.twitter链接，json文档，看起来已经成熟，可以加载到MongoDB中。（这来自MongoDB in Action第4章（曼宁出版社，从属关系）的一个人。）。本书包含一个从twitter直接向数据库检索数据的示例。所以可能值得一看。祝你好运。 – shellter 2012-02-24 22:24:08

作业控制工具或主脚本是我正在看的。对于这些的任何建议？编程语言的改变也会导致速度的显着提高吗？ – s2n 2012-02-25 14:13:20