我正在使用cnn来分类图像。我有1000张图片开始我的旅程。所以我用900作为训练数据集,100作为测试数据集。我得到了一个约70%正确性的模型。我可以重复使用测试数据作为训练数据吗?
那我今天再拍150张照片。所以我有两个想法可以继续:
(1)我可以将以前的100个测试数据+ 900个训练数据组合成一个“新”训练集,这样我就可以有1000个训练数据来获得更好的模型?那么我可以使用新的150张图像作为新的“测试”数据? (2)我可以将新的150张图像加上900个训练数据组合成一个“新”训练集来训练一个更好的模型,并继续使用前面的100个测试数据集来测试新模型吗?
显然我会尝试两种,但我不知道理论上哪一个更好......有什么意见?谢谢。
我不确定是否可以一次又一次地使用相同的测试数据集。因此,如果我继续使用相同的100个测试数据并不断向训练集中添加新数据,那么可能会好吗?是的,他们来自同一分配。 – user2210021
只要你的模型没有考虑拟合模型参数的测试数据就没有问题。使用模型进行预测不会影响模型的学习参数,因此您可以一次又一次使用相同的测试数据。在ML中,体面的列车测试分组通常为75-25或80-20。如果您认为分割数据太少,请尝试进行k次交叉验证。 – mujjiga