2013-06-29 48 views
1

我必须以很多网站的文本格式提取联系人信息。我如何提取?我们来看一个例子:如何从多个网站提取数据特定数据

Document doc=Jsoup.connect("http://www.genesyslab.com/").get(); 

在这里我连接到网站。我想提取本网站的产品信息。

+1

您必须了解HTML元素是什么以及它们在您试图访问的页面中如何scruturec。我们现在可以为您提供该网站的产品列表,但如果您不明白,只要他们改变了一点,整个程序就会停止工作。你应该首先阅读一个基本的HTML教程。 – acdcjunior

+1

你曾经使用过'Jsoup'吗?请在这里查看示例:http://jsoup.org/cookbook/extracting-data/。你将能够回答你自己的问题。 – Niranjan

+0

其实我是jsoup的新手,现在我可以从单个网站获取数据,但是让我们来举个例子,我必须从任何网站解析所有关于我们的数据,然后我可以写什么? – Chintamani

回答

0

你应该把你需要的所有URL放在一个文件中,然后加载文件并在循环中提取信息。例如:

//Load file with urls into array 
for (url : array) { 
    //connect to url 
    //extract data 
    //send data to file 
}