2015-10-07 80 views
1

我已经创建了一个简单的使用BFS的网络爬虫,给定了一些种子URL和几个关键字爬取网络搜索这些关键字的内容。我相信下一步是索引,搜索引擎可以查询它,我想知道做这件事的最好方法是什么?我最担心的一些问题是:基本的搜索引擎 - 抓取下一步是什么?

我应该将索引存储在文件或数据库中吗?

我是否存储找到的页面以及此页面中的所有传出地址或仅存的未访问地址?

回答