2017-07-17 98 views
0

我抓取了来自常见抓取的数据,并且想要查找与每个记录相对应的url。无法从通用抓取抓取的warc文件中找到网址

for record in files: 
    print record['WARC-Target-URI'] 

这将输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是否获得了与每条记录相对应的目标uri或者一个warc文件路径只有一个目标uri?

+0

这是很难理解的原因可能是没有什么详细的日志。 –

+0

您是否更新了[dmorgan.info](https://dmorgan.info/posts/common-crawl-python/)中的示例,以便URL和路径指向正确的数据位置。该数据已于去年被移至s3:// commoncrawl /(参见[CC组](https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1.删​​除路径前缀'common-crawl /' 2.将URL中的主机改为'commoncrawl.s3.amazonaws.com'。 'https:// aws-publicdatasets.s3.amazonaws.com/common-crawl /'变成'https:// commoncrawl.s3.amazonaws.com /' –

+0

是的,我有相应的路径,我可以看到record.payload.read()但记录['WARC-Target-URI']的值不会返回任何值。记录['Content-Language']的情况也是如此 –

回答

0

您所追求的信息是标题的一部分。尝试:

print record.header['WARC-Target-URI']