2016-05-15 120 views
0

我有一个问题,我无法从包含来自PHP表单内容的网站抓取内容。我假设这是问题,因为所有其他网页都没有问题被抓取。我使用Nutch 1.11和Apache Solr 5.4.1将抓取的文档编入索引。唯一获取索引的文本是菜单链接中的样板文本等。整个文本主体永远不会被解析。
我目前正在这一只除了那些允许在URL中执行一个PHP查询,以便字符,如默认CONFIGS“?=”接受比这所有的默认设置等。 如果有人能解释为什么这种情况我真的很感激它,我似乎无法将它作为网上任何地方的问题。
下面是一个示例网站,我无法获取要解压缩和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我已经通过日志,它说它解析了网址。它设法提取菜单文本,但没有任何主要内容。正如我所说,域中的所有其他页面都可以在没有问题的情况下进行提取。Nutch不抓取页面内容

回答

0

一般来说查询网址是默认忽略,这是因为他们可以有抓取的网站上了沉重的打击(如查询URL通常动态地从数据存储/ DB产生的),为了解决这个问题,请检查文件,您将白名单的正则表达式放入其中,并在那里明确说明接受的url模式 - 这将需要进行更改以允许查询URL(带有?的URL)。

文件感兴趣的是所谓的:正则表达式,URLFILTER.TXT

,将有:

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

内容

对此事有趣的博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属于