如何存档和检索大型HTML数据集？

我是一名新手，我即将参加本周末的比赛。问题在于归档和检索大型HTML数据集，我不知道它。我的朋友建议我使用网络存档和通用爬网。请向我建议一种将HTML数据集转换为Web档案并将其编入索引的方法。提前致谢。如何存档和检索大型HTML数据集？

2016-08-18 Sriram S

WARC格式是一个广泛使用的标准，绝对是一个很好的决定，以存档网页。此外，HTTP标头包含在WARC文件中。因此，您需要一个爬虫来创建一个WARC文件。如果HTML页面是作为文件集合提供的，则需要抓取文件系统（例如通过本地HTTP服务器）以将内容导入WARC文件。

其他一切取决于具体的任务：有很多工具和库

2016-08-19 09:52:28

回答