我有一个问题,我无法从包含来自PHP表单内容的网站抓取内容。我假设这是问题,因为所有其他网页都没有问题被抓取。我使用Nutch 1.11和Apache Solr 5.4.1将抓取的文档编入索引。唯一获取索引的文本是菜单链接中的样板文本等。整个文本主体永远不会被解析。
我目前正在这一只除了那些允许在URL中执行一个PHP查询,以便字符,如默认CONFIGS“?=”接受比这所有的默认设置等。 如果有人能解释为什么这种情况我真的很感激它,我似乎无法将它作为网上任何地方的问题。
下面是一个示例网站,我无法获取要解压缩和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21
我已经通过日志,它说它解析了网址。它设法提取菜单文本,但没有任何主要内容。正如我所说,域中的所有其他页面都可以在没有问题的情况下进行提取。Nutch不抓取页面内容
0
A
回答
0
一般来说查询网址是默认忽略,这是因为他们可以有抓取的网站上了沉重的打击(如查询URL通常动态地从数据存储/ DB产生的),为了解决这个问题,请检查文件,您将白名单的正则表达式放入其中,并在那里明确说明接受的url模式 - 这将需要进行更改以允许查询URL(带有?的URL)。
文件感兴趣的是所谓的:正则表达式,URLFILTER.TXT
,将有:
# regex-urlfilter.txt +^http://www.example.com/browse -[?]
内容
对此事有趣的博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属于
相关问题
- 1. 使用Nutch如何抓取uisng ajax网页的动态内容?
- 2. apache nutch不抓取网站
- 3. Nutch抓取不起作用
- 4. 获取页面内容的格式,因为它是在nutch
- 5. Nutch的抓取工具无法检索新闻文章内容
- 6. 使用nutch抓取页面的后处理
- 7. 抓取网页,但需要javascript查看页面内容
- 8. node-simplecrawler:ajaxed内容网页抓取问题
- 9. 抓取GWT中网页的内容
- 10. 网页抓取动态内容
- 11. 抓取:内容后
- 12. file_get_contents抓取远程页面,内容未更新
- 13. RSS阅读器,然后抓取页面内容
- 14. 如何从谷歌加商业页面抓取内容?
- 15. 抓取页面块
- 16. 提取JSP页面内容
- 17. Ruby获取页面内容
- 18. 使用CrawlDbReader读取Nutch抓取数据
- 19. 如何从nutch获取html内容
- 20. Ruby - 即使页面内容不存在,也能获取页面内容
- 21. Angular2应用程序:抓取谷歌不会加载页面内容
- 22. 两次不抓取相同的内容
- 23. 抓取动态内容
- 24. 从webhook wordpress抓取内容?
- 25. 网站内容抓取
- 26. 抓取一行内容
- 27. 只抓取文章/内容
- 28. Google抓取AJAX内容吗?
- 29. html不同的页面内容取决于点击的内容
- 30. Scrapy Nameko DependencyProvider不抓取页面