Q

用于处理机器学习的大型数据集的设计模式

2017-08-16 47 views 2 likes

2

我目前正在尝试从网站中抓取数据并从中建立一个大型数据集（并且可能随时间而增长）。我想知道在处理，保存和加载大型数据集时是否有任何好的做法。用于处理机器学习的大型数据集的设计模式

更具体地说，当我想要保存的数据集太大而不能存储在RAM中时，应该怎么做，然后一次写入磁盘;并且一次写入一个数据点效率太低？有没有比编写一次适度大小的批处理更聪明的方法？

谢谢你的时间！

2017-08-16 CowNorris

+2

不要重新发明轮子，只需使用任何标准数据库 - MySQL的，Postgress，甲骨文，W/E。让数据库引擎担心[输入]效率。 – DyZ

A

回答

2

当然，使用数据库。

您应该看看MongoDB或elasticSearch，因为您存储的内容似乎是文档而不是关系数据。

https://www.mongodb.com/

https://www.elastic.co/

2017-08-16 23:26:58

相关问题