2017-08-16 47 views
2

我目前正在尝试从网站中抓取数据并从中建立一个大型数据集(并且可能随时间而增长)。我想知道在处理,保存和加载大型数据集时是否有任何好的做法。用于处理机器学习的大型数据集的设计模式

更具体地说,当我想要保存的数据集太大而不能存储在RAM中时,应该怎么做,然后一次写入磁盘;并且一次写入一个数据点效率太低?有没有比编写一次适度大小的批处理更聪明的方法?

谢谢你的时间!

+2

不要重新发明轮子,只需使用任何标准数据库 - MySQL的,Postgress,甲骨文,W/E。让数据库引擎担心[输入]效率。 – DyZ

回答