我记得有过R用户写过他们使用“修订控制”(e.g: "Source control"),我很想知道:您如何将“修订控制”与统计分析工作流结合起来?R如何将“修订控制”与“工作流程”结合起来使用?
两个(非常)有趣的讨论讨论如何处理工作流程。但无论他们的参考版本控制元素:
长期更新的问题:按照一些人的答案,和德克的问题在评论,我想多指导一下我的问题。
念叨“revision control”维基文章(我以前不熟悉)之后,很明显,我认为使用版本控制时,什么人做的是打造自己的代码发展结构。这种结构要么导致“最终产品”,要么导致多个分支。
当我们建立一个类似网站的时候,通常有一个最终产品正在朝着(网站)方向努力,同时还有一些原型。
但是当做统计分析时,工作(在我看来)是不同的。有时你知道你想去的地方。但更多的时候,你会探索。探索清洁数据集。探索不同的统计分析方法,并询问你的数据的各种问题(我正在写这篇文章,了解Frank Harrell和其他经验统计学家对Data dredging的看法)。
这就是为什么与统计编程的工作流程问题是(在我看来)一个严肃而深刻的问题,提出许多问题,越简单的有技术:
- 版本控制软件你使用哪种(和为什么)?
- 您使用哪个IDE(以及为什么)? 更有趣的问题是关于工作过程:
- 你如何构建你的文件?
- 你作为一个单独的文件保存什么和作为修订?或以不同的方式询问 - 什么应该是“分支”,代码中应该是什么“子项目”?例如:当开始探索你的数据时,是否应该创建一个情节,然后抹去,因为它没有引导任何地方(但保留为修订版)或者应该有该路径的备份文件?
如何你解决这个紧张是我最初的好奇心。第二个问题是“我可能会错过什么?”。应该遵循哪些规则(拇指)以避免使用版本控制进行统计编程的常见缺陷?我认为统计编程与软件开发(我在编写这个时不需要真正的统计编程专家,甚至在软件开发中更少)编写本质上不同。这就是我不确定我在这里阅读的关于版本控制的哪些教训是适用的。
非常感谢, 塔尔
问题是什么?当您在工作流程中拥有新版本的文件时,您将其提交。版本控制允许您分支,恢复,但所有这些都与工作流问题有些正交。所以请解释你想要回答的问题。 – 2010-02-18 14:33:28
还有一点:如果有的话,那么这关系到你之前关于编辑/ ide建议的问题。是的,Emacs也确实进行了版本控制集成,因为'M-x svn-status'规则我的世界:) – 2010-02-18 15:13:26
嗨Dirk, 我扩展了我的问题,希望更清楚。 感谢您分享如此多的时间和经验。 干杯, Tal – 2010-02-18 21:27:57