如何仅从Dmoz ODP文件（RDF中）中提取URL

我只需要dmoz/ODP文件中的URL。但该文件在RDF中。如何从odp文件获取url？我想提取文本文件中的所有网址。如何仅从Dmoz ODP文件（RDF中）中提取URL

任何人都知道任何脚本来解析只有从rdf文件的URL？

2011-10-31 Maxwell

您可以加入一些更多的细节？该文件的示例将会有所帮助。 – drnewman

@drnewman：如果你对这个文件有所了解：http：//rdf.dmoz.org/rdf/archive/2004-01-05/kt-content.rdf.u8.gz 这是一个rdf文件的样本我只对网址感兴趣。 – Maxwell

@flesk已经给出了很好的答案，尽管使用for循环可能更习惯于使用。但是用Perl TIMTOWTDI。 – drnewman

也许这样的事情呢？

#!/usr/bin/perl 
use strict; 
use warnings; 

my $file = "kt-content.rdf.u8"; 
my @urls; 

open(my $fh, "<", $file) or die "Unable to open $file\n"; 

while (my $line = <$fh>) { 
    if ($line =~ m/<(?:ExternalPage about|link r:resource)="([^\"]+)"\/?>/) { 
     push @urls, $1; 
    } 
} 

close $fh;

然后将@urls的内容打印到文本文件中。

来源

2011-10-31 22:46:36 flesk

几种流行的SemWeb API（Jena，Sesame和dotNetRDF）都为RDF文件提供了完整的流媒体API，因此您可以编写一个自定义数据处理程序，只处理生成的URI并丢弃其余部分“T感兴趣的

你也许可以做到用Perl的东西哈克，它可能会更快，但它可能不是特别如果RDF使用哪些需要解决的问题

来源

2011-11-01 03:52:06 RobV

选项1.下载dmoz_v3相对URI完全准确.zip从http://sourceforge.net/projects/dmoz2mysql/files/latest/download。这是一个PHP脚本，用于自动分析DMOZ RDF数据转储文件。它具有下载文件，提取，清理，解析和插入数据到MySQL数据库。

选项2.使用下面的链接，找到工具来提取网址，RDF转储文件

http://www.dmoz.org/Computers/Internet/Searching/Directories/Open_Directory_Project/Use_of_ODP_Data/Upload_Tools/

来源

2013-06-19 10:00:06 user1794069

如何仅从Dmoz ODP文件（RDF中）中提取URL

回答

相关问题