2012-01-11 152 views
0

我想抓取GitHub上的某种项目,说我想抓取由特定作者创建的源代码和bla bla约束条件。是否有任何Nutch的插件来抓取这些信息或最好的方式来抓取整个存储库。抓取版本控制系统

我甚至想要使用Nutch抓取版本公开托管的版本控制系统。有没有任何插件可用于相同的。

+1

您无法抓取远程存储库,您必须拥有本地副本。我甚至不知道Nutch是什么,但最接近你对核心git的要求是'git log'的参数,请参阅manpage。 – fge 2012-01-11 10:13:23

+0

我认为“user159972”想要的是自动查找特定作者创建的所有项目列表,然后该工具将在本地进行克隆。 – Arafangion 2012-01-11 14:24:44

回答

2

Github带有一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行shell的问题。

请参阅API文档here

1

Nutch是一个搜索引擎,由Apache制作,基于Lucene后端。

看看GitHub的robots.txt文件: https://github.com/robots.txt

除了特定的引擎,(如谷歌),它说:

User-agent: * 
Disallow:/

因此,你不能使用Nutch抓取GitHub上。

搜索引擎爬行github似乎是一个坏主意。将有许多类似的网页,你会无缘无故下载。 GitHub的搜索有什么问题?

请尝试概括您的问题。你希望通过Nutch抓取github来实现什么?你想要执行什么类型的搜索?

+0

我认为机械爬行github是一个有效的用例。因此API。 – pmr 2012-01-11 18:50:06

相关问题