我想抓取GitHub上的某种项目,说我想抓取由特定作者创建的源代码和bla bla约束条件。是否有任何Nutch的插件来抓取这些信息或最好的方式来抓取整个存储库。抓取版本控制系统
我甚至想要使用Nutch抓取版本公开托管的版本控制系统。有没有任何插件可用于相同的。
我想抓取GitHub上的某种项目,说我想抓取由特定作者创建的源代码和bla bla约束条件。是否有任何Nutch的插件来抓取这些信息或最好的方式来抓取整个存储库。抓取版本控制系统
我甚至想要使用Nutch抓取版本公开托管的版本控制系统。有没有任何插件可用于相同的。
Github带有一个JSON API。使用存储库API获取特定用户的存储库列表,然后克隆它们。应该是几行shell的问题。
请参阅API文档here。
Nutch是一个搜索引擎,由Apache制作,基于Lucene后端。
看看GitHub的robots.txt文件: https://github.com/robots.txt
除了特定的引擎,(如谷歌),它说:
User-agent: *
Disallow:/
因此,你不能使用Nutch抓取GitHub上。
搜索引擎爬行github似乎是一个坏主意。将有许多类似的网页,你会无缘无故下载。 GitHub的搜索有什么问题?
请尝试概括您的问题。你希望通过Nutch抓取github来实现什么?你想要执行什么类型的搜索?
我认为机械爬行github是一个有效的用例。因此API。 – pmr 2012-01-11 18:50:06
您无法抓取远程存储库,您必须拥有本地副本。我甚至不知道Nutch是什么,但最接近你对核心git的要求是'git log'的参数,请参阅manpage。 – fge 2012-01-11 10:13:23
我认为“user159972”想要的是自动查找特定作者创建的所有项目列表,然后该工具将在本地进行克隆。 – Arafangion 2012-01-11 14:24:44