2015-02-09 68 views
1

在讨论如何在R中组织工作流和项目时,经常建议package be written与&共享工作。我想知道:是否有使用R包发布&的任何优先级都可以通过CRAN或其他插座公开获得数据(以及相关资料,例如元数据,自定义数据处理工具等)?我使用需要多个清洁阶段的数据,例如基本清除拼写错误,基本记录匹配&自定义插补缺失数据,然后针对特定分析进行各种形式的整形&聚合。 R包似乎是一种有用的方式来记录和呈现用于生成的数据的方法&。主要的缺点是时间上的投资。好处很多:为我们实验室的未来学生,未来的自我和其他潜在用户提供高标准的文档,完全可重复的数据,以及随着收集更多数据而更新数据的平台。通过R中的包发布数据是否有优先级?

某些上下文:作为平面文件发布数据+元数据在我的领域通过由期刊托管的在线附录日益普遍;一个third-party website也很受欢迎。复制数字&分析通常是可能的,但数据有时高度“按摩”,处理中的步骤不能总是被复制,有时会限制进行替代分析的能力。我的顾问&我想发布15年纵向研究的前10年的数据。我已经需要清理我的数据处理脚本,以传递给未来的学生/合着者,这可能会让一个内部使用的软件包变得有用。

+0

Bioconductor项目使用包始终发布数据。 – 2015-02-09 18:40:46

回答