crawler4j

0热度

1回答

当我尝试Crawler4j example的快速启动，在controller.java 我想这是我应该改变的结果存储的地点。 `public class Controller { public static void main(String[] args) throws Exception { String crawlStorageFolder = "/data/crawl

0热度

1回答

Crawler4J在FatJar中没有检测到Tika与sbt-assembly的编码

在sbt控制台的工程中使用Crawler4j。当使用SBT-组件来创建一个fatjar提卡（？）似乎不再与 java -jar crawler.jar 什么提卡缺少检测编码启动时能够检测到的页面编码？ ERROR edu.uci.ics.crawler4j.parser.Parser - Failed to detect the character encoding of a documen

0热度

1回答

crawler4j似乎忽略了robots.txt文件...如何解决它？

我正在研究抓取小型网页目录的项目，并使用crawler4j实现了抓取工具。我知道RobotstxtServer应该检查robots.txt文件是否允许/拒绝某个文件，但是我仍然显示一个不应该被访问的目录。我已经阅读了源代码和我的代码多次，但我似乎无法弄清楚为什么这是。简而言之，为什么我的程序不能识别robots.txt文件所说的/ donotgohere /文件？下面是我的程序代码。任何帮助都

1热度

1回答

使用crawler4j在类之间传递一个对象

我是一个使用crawler4j构建块构建的简单Web爬网程序。我正在尝试构建一个字典，因为我的爬虫爬网，然后将它传递给我的主（控制器），因为它构建和解析文本。我如何做到这一点，因为我的MyCrawler对象不是在我的主类中创建的（使用MyCrawler.class作为第一个参数）？另外，我无法更改controller.start方法。我希望能够在抓取工具完成后使用在抓取工具中创建的字典。我认为能

0热度

1回答

Crawler4j不能AJAX爬行

我想从基于ajax的网站下载数据。但是crawler4j不支持ajax爬行。我想使用crawler4j，但具有此功能。我的项目基于crawler4j。我有什么办法可以做，请分享链接和代码片段。

1热度

1回答

获取重定向到另一个网页的网页内容

我想抓取网页的内容 - http://www.pgmfi.org/。但是如果我们访问该页面，我们会看到它重定向到页面 - http://twiki.pgmfi.org/bin/view。当我尝试使用jsoup或crawler4j从URL（http://www.pgmfi.org/）抓取内容时，我得到以下内容。 Looking for PGMFI.ORG Home ? Please wait re

0热度

1回答

网络爬虫不打印

我正在处理我的第一个网络爬虫，我无法弄清楚如何让它打印结果。没有错误，但没有显示。从BS4进口BeautifulSoup 进口urllib3 高清extract_links（）： http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-hour-chicago.html') so

1热度

1回答

使用crawler4j爬行和提取信息

我需要帮助了解如何爬过此页面： http://www.marinetraffic.com/en/ais/index/ports/all 通过每个端口，并提取名称和坐标并将它们写入文件。主类如下所示： import java.io.FileWriter; import edu.uci.ics.crawler4j.crawler.CrawlConfig; import edu.uci.ics.

0热度

1回答

crawler4j只抓取种子URL

为什么下面的代码构建crawler4j只抓取给定的种子URL并且不开始抓取其他链接？ public static void main(String[] args) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlConfig config = new Craw

0热度

1回答

如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

我正在完成一个研究项目，以编目用于描述科学和学术期刊的所有HTML元标记，例如，都柏林核心，开放图形，棱镜，引文，biblio等。我使用edu.uci.ics.crawler4j.crawler.WebCrawler并且它有少量种子URL的工作。我的问题是我需要一个更大的种子URL列表。我有什么选择？我必须手动搜索网络来寻找期刊网站，还是可以使用类似于crawler4j的内容来发现种子网站