2016-08-18 54 views
0

我是一名新手,我即将参加本周末的比赛。问题在于归档和检索大型HTML数据集,我不知道它。我的朋友建议我使用网络存档和通用爬网。请向我建议一种将HTML数据集转换为Web档案并将其编入索引的方法。提前致谢。如何存档和检索大型HTML数据集?

回答

0

WARC格式是一个广泛使用的标准,绝对是一个很好的决定,以存档网页。此外,HTTP标头包含在WARC文件中。因此,您需要一个爬虫来创建一个WARC文件。如果HTML页面是作为文件集合提供的,则需要抓取文件系统(例如通过本地HTTP服务器)以将内容导入WARC文件。

其他一切取决于具体的任务:有很多工具和库

  1. 抓取并导出内容WARC:最简单的就是wget --warc-file,但还有更多的

  2. 阅读WARC文件并处理内容。

请参阅The WARC Ecosystem获取工具集合。如果您刚开始需要一个严重的WARC文件,请从共同抓取中抓取一个,例如,https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz