我是一名新手,我即将参加本周末的比赛。问题在于归档和检索大型HTML数据集,我不知道它。我的朋友建议我使用网络存档和通用爬网。请向我建议一种将HTML数据集转换为Web档案并将其编入索引的方法。提前致谢。如何存档和检索大型HTML数据集?
0
A
回答
0
WARC格式是一个广泛使用的标准,绝对是一个很好的决定,以存档网页。此外,HTTP标头包含在WARC文件中。因此,您需要一个爬虫来创建一个WARC文件。如果HTML页面是作为文件集合提供的,则需要抓取文件系统(例如通过本地HTTP服务器)以将内容导入WARC文件。
其他一切取决于具体的任务:有很多工具和库
抓取并导出内容WARC:最简单的就是
wget --warc-file
,但还有更多的阅读WARC文件并处理内容。
请参阅The WARC Ecosystem获取工具集合。如果您刚开始需要一个严重的WARC文件,请从共同抓取中抓取一个,例如,https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz
相关问题
- 1. 如何搜索大型XML数据集?
- 2. ElasticsearchTemplate检索大数据集
- 3. 搜索大型数据集
- 4. 如何更改和检索HTML文档
- 5. 存储和搜索大数据集
- 6. 如何从大型数据集中重复检索一定数量的数据?
- 7. 如何存储和检索xml文档
- 8. 在大型数据集中搜索
- 9. 检索大型数据集以跨多个控制器共享
- 10. 检索并比较具有多列的超大型数据集
- 11. 使用流利NHibernate检索大型数据集
- 12. 使用RIA服务检索大型数据集
- 13. 存储大型静态数据集
- 14. 大型数据集的内存消耗
- 15. 如何高效地搜索子数据集的大数据集?
- 16. 如何为大型数据集创建UITableView索引
- 17. 客户端数据存储和检索HTML和JavaScript
- 18. 如何导入大型数据集?
- 19. 如何检索数据类型的大小?
- 20. 保存和检索模型
- 21. 如何保存大型Python numpy数据集?
- 22. 如何从数据库检索数据到word文档。净
- 23. 大型数据集 - .NET Framework和C#
- 24. 大数据集Solr索引
- 25. perl和巨大的数据库,如何搜索和存储?
- 26. 收集,存储和检索传感器数据
- 27. 检索图片存储为数据库blob和在html
- 28. 用PetaPoco检索数据集
- 29. 如何保存大型关系数据
- 30. 在您键入大型核心数据数据集时搜索