2016-06-10 80 views
0

我想从Freebase dump中提取所有公司。但是,转储中似乎缺少多个实例。Freebase:在转储中丢失的实例

例如Volkswagen(/m/07ywl)似乎不包括在内。我搜索了MID使用下面的正则表达式,但找不到任何结果:

zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf 

,因为它是在相应的Wikidata page说,是大众汽车的顶级结果使用知识为它寻找时,MID应该是有效的图形API:

https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=<API-KEY>&limit=5&indent=True 

回答

0

即实体存在于freebase-rdf-2015-04-19-00-00.gz,所以我会非常惊讶,如果它没有在决赛中转储从几个月后存在(2015年8月9日),因为数据库是写除了几个Google管理员之外,所有人都会被锁定。

我的第一个猜测是你有一个截断或损坏的下载。下载后是否检查了长度和MD5校验和?

+0

对不起后期跟进。你能告诉我你是如何搜索实体的?我在'freebase-rdf-2015-04-19-00-00.gz'转储上尝试了'zgrep'07ywl'',并没有检索到任何结果。 – fwind

+0

'$时间zgrep '07ywl' 的游离碱,RDF-2015-04-19-00-00.gz> VW-07ywl.txt 真正\t 86m51.942s 用户\t 84m33.558s SYS \t 0m39.977s $厕所-l vw-0 * 1344 vw-07ywl.txt' 下载后是否检查了长度和校验和? –

+0

他们不发布校验和。然而,档案的大小看起来不错,我测试了使用'gunzip -t'压缩不会损坏。 – fwind