crawler4j

3热度

1回答

我正在运行crawler4j，输出到目录/frontier/。此目录中的文件是 00000000.jdb je.info.0 je.info.lck je.lck 的.jdb文件是唯一一个与数据其他三个文件有零字节。我不确定如何处理这些数据。 java程序捕获我想要的数据，但现在我不确定如何浏览我检索的数据。（我在Mac上，所以任何跨平台或OSX的是最好的）

1热度

1回答

为什么使用hdfs：//前缀作为文件路径允许打开文件？

我在写一个抓取页面的hadoop作业。我正在使用的库使用文件系统在爬网时存储爬网数据。我确信这个库将不得不被修改为使用HDFS，因为当我使用的爬虫库使用java.io时，需要使用完全不同的一组类来接口HDFS。但是，当一位同事使用hdfs：// localhost/path/to/storage时，抓取程序工作的存储文件夹的路径可以写入文件系统。我试图理解为什么这会起作用，基于hadoop的jv

2热度

2回答

crawler4J高效设计获取数据

我想从各种网站获取数据。在堆栈溢出搜索后，我使用crawler4j，因为许多人提出这一点。下面是我的理解/设计： 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly. 3. Now, get the list of

5热度

2回答

我如何才能让crawler4j更快速地从页面下载所有链接？

我要做的就是： - 抓取页面 - 抓取网页的所有链接，将它们放在一个列表 - 开始一个新的履带，其访问列表中的每个环节 - 下载它们必须有更快捷的方式，我可以在浏览页面时直接下载链接吗？谢谢！

1热度

1回答

使用crawler4j获取链接文本链接时使用crawler4j

我正在使用crawler4j来抓取网站。当我访问一个页面时，我想要获取所有链接的链接文本，而不仅仅是完整的URL。这可能吗？在此先感谢。