2
我目前正在尝试从网站中抓取数据并从中建立一个大型数据集(并且可能随时间而增长)。我想知道在处理,保存和加载大型数据集时是否有任何好的做法。用于处理机器学习的大型数据集的设计模式
更具体地说,当我想要保存的数据集太大而不能存储在RAM中时,应该怎么做,然后一次写入磁盘;并且一次写入一个数据点效率太低?有没有比编写一次适度大小的批处理更聪明的方法?
谢谢你的时间!
我目前正在尝试从网站中抓取数据并从中建立一个大型数据集(并且可能随时间而增长)。我想知道在处理,保存和加载大型数据集时是否有任何好的做法。用于处理机器学习的大型数据集的设计模式
更具体地说,当我想要保存的数据集太大而不能存储在RAM中时,应该怎么做,然后一次写入磁盘;并且一次写入一个数据点效率太低?有没有比编写一次适度大小的批处理更聪明的方法?
谢谢你的时间!
当然,使用数据库。
您应该看看MongoDB或elasticSearch,因为您存储的内容似乎是文档而不是关系数据。
不要重新发明轮子,只需使用任何标准数据库 - MySQL的,Postgress,甲骨文,W/E。让数据库引擎担心[输入]效率。 – DyZ