Nutch不抓取页面内容

我有一个问题，我无法从包含来自PHP表单内容的网站抓取内容。我假设这是问题，因为所有其他网页都没有问题被抓取。我使用Nutch 1.11和Apache Solr 5.4.1将抓取的文档编入索引。唯一获取索引的文本是菜单链接中的样板文本等。整个文本主体永远不会被解析。
我目前正在这一只除了那些允许在URL中执行一个PHP查询，以便字符，如默认CONFIGS“？=”接受比这所有的默认设置等。如果有人能解释为什么这种情况我真的很感激它，我似乎无法将它作为网上任何地方的问题。
下面是一个示例网站，我无法获取要解压缩和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我已经通过日志，它说它解析了网址。它设法提取菜单文本，但没有任何主要内容。正如我所说，域中的所有其他页面都可以在没有问题的情况下进行提取。Nutch不抓取页面内容

来源

2016-05-15 cawleykid

一般来说查询网址是默认忽略，这是因为他们可以有抓取的网站上了沉重的打击（如查询URL通常动态地从数据存储/ DB产生的），为了解决这个问题，请检查文件，您将白名单的正则表达式放入其中，并在那里明确说明接受的url模式 - 这将需要进行更改以允许查询URL（带有？的URL）。

文件感兴趣的是所谓的：正则表达式，URLFILTER.TXT

，将有：

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

内容

对此事有趣的博客：https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属于

来源

2016-05-18 14:40:50

Nutch不抓取页面内容

回答

相关问题