我想抓取网站并将内容存储在我的计算机上供以后分析。但是,我的操作系统文件系统对子目录的数量有限制,这意味着存储原始文件夹结构不起作用。如何存储从网站抓取的数据
对此提出建议?
将URL映射到某个文件名,以便可以平铺存储?或者只是将它推入像sqlite这样的数据库中以避免文件系统限制?
我想抓取网站并将内容存储在我的计算机上供以后分析。但是,我的操作系统文件系统对子目录的数量有限制,这意味着存储原始文件夹结构不起作用。如何存储从网站抓取的数据
对此提出建议?
将URL映射到某个文件名,以便可以平铺存储?或者只是将它推入像sqlite这样的数据库中以避免文件系统限制?
这一切都取决于您有意抓取的文本和/或网页的有效数量。一个通用的解决方法是
此方法的优点是DBMS保持较小状态,但可用于SQL驱动的查询(特设或编程性质)查询各种条件。与在SQL服务器本身内存储许多/大文件相关联,通常没有什么收获(并且很多头痛)。此外,当每个页面被处理/分析时,可以将额外的元数据(例如标题,语言,大多数重复的5个单词,等等)添加到数据库中。
将其存储在数据库中将有助于搜索内容和页面基础数据。您还可以尝试内存数据库或“存储缓存”,如存储加速。
我将抓取大约10GB的文本。这听起来像是一个很好的妥协。 – hoju 2010-03-17 05:58:37
@mjv为它赞不绝口,你能写出如何让hadoop hdfs介入这个解决方案之间吗? – 2015-12-28 12:19:07