crawler4j

    0热度

    1回答

    当我尝试Crawler4j example的快速启动, 在controller.java 我想这是我应该改变的结果存储的地点。 `public class Controller { public static void main(String[] args) throws Exception { String crawlStorageFolder = "/data/crawl

    0热度

    1回答

    在sbt控制台的工程中使用Crawler4j。当使用SBT-组件来创建一个fatjar提卡(?)似乎不再与 java -jar crawler.jar 什么提卡缺少检测编码启动时能够检测到的页面编码? ERROR edu.uci.ics.crawler4j.parser.Parser - Failed to detect the character encoding of a documen

    0热度

    1回答

    我正在研究抓取小型网页目录的项目,并使用crawler4j实现了抓取工具。我知道RobotstxtServer应该检查robots.txt文件是否允许/拒绝某个文件,但是我仍然显示一个不应该被访问的目录。 我已经阅读了源代码和我的代码多次,但我似乎无法弄清楚为什么这是。简而言之,为什么我的程序不能识别robots.txt文件所说的/ donotgohere /文件? 下面是我的程序代码。任何帮助都

    1热度

    1回答

    我是一个使用crawler4j构建块构建的简单Web爬网程序。我正在尝试构建一个字典,因为我的爬虫爬网,然后将它传递给我的主(控制器),因为它构建和解析文本。我如何做到这一点,因为我的MyCrawler对象不是在我的主类中创建的(使用MyCrawler.class作为第一个参数)?另外,我无法更改controller.start方法。我希望能够在抓取工具完成后使用在抓取工具中创建的字典。 我认为能

    0热度

    1回答

    我想从基于ajax的网站下载数据。但是crawler4j不支持ajax爬行。我想使用crawler4j,但具有此功能。我的项目基于crawler4j。我有什么办法可以做,请分享链接和代码片段。

    1热度

    1回答

    我想抓取网页的内容 - http://www.pgmfi.org/。但是如果我们访问该页面,我们会看到它重定向到页面 - http://twiki.pgmfi.org/bin/view。 当我尝试使用jsoup或crawler4j从URL(http://www.pgmfi.org/)抓取内容时,我得到以下内容。 Looking for PGMFI.ORG Home ? Please wait re

    0热度

    1回答

    我正在处理我的第一个网络爬虫,我无法弄清楚如何让它打印结果。没有错误,但没有显示。 从BS4进口BeautifulSoup 进口urllib3 高清extract_links(): http = urllib3.PoolManager() r = http.request('GET', 'http://www.drankbank.com/happy-hour-chicago.html') so

    1热度

    1回答

    我需要帮助了解如何爬过此页面: http://www.marinetraffic.com/en/ais/index/ports/all 通过每个端口,并提取名称和坐标并将它们写入文件。 主类如下所示: import java.io.FileWriter; import edu.uci.ics.crawler4j.crawler.CrawlConfig; import edu.uci.ics.

    0热度

    1回答

    为什么下面的代码构建crawler4j只抓取给定的种子URL并且不开始抓取其他链接? public static void main(String[] args) { String crawlStorageFolder = "F:\\crawl"; int numberOfCrawlers = 7; CrawlConfig config = new Craw

    0热度

    1回答

    我正在完成一个研究项目,以编目用于描述科学和学术期刊的所有HTML元标记,例如,都柏林核心,开放图形,棱镜,引文,biblio等。 我使用edu.uci.ics.crawler4j.crawler.WebCrawler并且它有少量种子URL的工作。 我的问题是我需要一个更大的种子URL列表。 我有什么选择? 我必须手动搜索网络来寻找期刊网站,还是可以使用类似于crawler4j的内容来发现种子网站