crawler4j

    3热度

    1回答

    我正在运行crawler4j,输出到目录/frontier/。此目录中的文件是 00000000.jdb je.info.0 je.info.lck je.lck 的.jdb文件是唯一一个与数据其他三个文件有零字节。我不确定如何处理这些数据。 java程序捕获我想要的数据,但现在我不确定如何浏览我检索的数据。 (我在Mac上,所以任何跨平台或OSX的是最好的)

    1热度

    1回答

    我在写一个抓取页面的hadoop作业。我正在使用的库使用文件系统在爬网时存储爬网数据。我确信这个库将不得不被修改为使用HDFS,因为当我使用的爬虫库使用java.io时,需要使用完全不同的一组类来接口HDFS。 但是,当一位同事使用hdfs:// localhost/path/to/storage时,抓取程序工作的存储文件夹的路径可以写入文件系统。我试图理解为什么这会起作用,基于hadoop的jv

    2热度

    2回答

    我想从各种网站获取数据。在堆栈溢出搜索后,我使用crawler4j,因为许多人提出这一点。下面是我的理解/设计: 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly. 3. Now, get the list of

    5热度

    2回答

    我要做的就是: - 抓取页面 - 抓取网页的所有链接,将它们放在一个列表 - 开始一个新的履带,其访问列表中的每个环节 - 下载它们 必须有更快捷的方式,我可以在浏览页面时直接下载链接吗?谢谢!

    1热度

    1回答

    我正在使用crawler4j来抓取网站。当我访问一个页面时,我想要获取所有链接的链接文本,而不仅仅是完整的URL。这可能吗? 在此先感谢。

    5热度

    1回答

    我想安装爬网程序来抓取一个网站,让我说博客,并只提取网站中的链接,并将链接粘贴到文本文件中。你能指导我一步一步地设置爬虫吗?我正在使用Eclipse。