2017-04-17 89 views
1

我正在使用CNTKTextReader读取我的训练和测试集。火车档案越来越大(现在2.7 GB,不久将变得更大)。CNTKTextFormatDeserializer的概念是什么以及为什么使用?

我不明白什么是“CNTKTextFormatDeserializer” - 我发现的文档没有解释什么是大图 - 它是什么以及为什么使用它?我发现的文档刚进入它的语法。

那么,这是一种使用这些文件的二进制版本使其更加紧凑的方法吗?

回答

0

读者通常只是使培训的某些方面更容易的一种方法。这些措施包括

  1. 随机:SGD推广更好,当提交给它的数据以随机顺序来。读者可以随机将数据随机发生。
  2. 分布式培训:对于分布式培训,读者意识到多个工作人员,并可以确保他们收到不同的数据块。
  3. 内存预算问题:读卡器不会将整个训练文件加载到内存中。
  4. 语言不可知的I/O:读者提供了一种跨平台的方式来读取数据。 (如果你想永远在Python中,你可能不关心这个,但其他人可以)。

CTF格式有点冗长,确实有最近添加的binary format deserializer