无法从通用抓取抓取的warc文件中找到网址

我抓取了来自常见抓取的数据，并且想要查找与每个记录相对应的url。无法从通用抓取抓取的warc文件中找到网址

for record in files: 
    print record['WARC-Target-URI']

这将输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是否获得了与每条记录相对应的目标uri或者一个warc文件路径只有一个目标uri？

来源

2017-07-17 Ravi Ranjan

这是很难理解的原因可能是没有什么详细的日志。 –

您是否更新了[dmorgan.info]（https://dmorgan.info/posts/common-crawl-python/）中的示例，以便URL和路径指向正确的数据位置。该数据已于去年被移至s3：// commoncrawl /（参见[CC组]（https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion））： 1.删除路径前缀'common-crawl /' 2.将URL中的主机改为'commoncrawl.s3.amazonaws.com'。 'https：// aws-publicdatasets.s3.amazonaws.com/common-crawl /'变成'https：// commoncrawl.s3.amazonaws.com /' –

是的，我有相应的路径，我可以看到record.payload.read（）但记录['WARC-Target-URI']的值不会返回任何值。记录['Content-Language']的情况也是如此 –

您所追求的信息是标题的一部分。尝试：

print record.header['WARC-Target-URI']

来源

2017-07-18 12:37:26

无法从通用抓取抓取的warc文件中找到网址

回答

相关问题