2017-05-07 179 views
1

我想创建一个脚本,我可以使用它来跟踪旅游网站的价格。如何使用脚本从网站获取数据?

我没有看到从文件切割数据的任何问题...但我不知道如何自动获取整个网站的信息。

我用下面的调用来获取网站:

curl -o data.txt http://www.tui.pl/wypoczynek/kuba/varadero/iberostar-tainos-vra20116/OfferCodeWS/WAWVRA20171120113020171120201711301830L10VRA20116DZX1AA02 

但下载的内容不包含,因为它被隐藏在价格:

<span class="price-group-desc">Cena za osobę:</span> 
    <div class="row"> 
    <div class="col-xs-7 col-xs-offset-5"> 
     {{^child}} 
     <div class="old price">{{formattedAmount}} <sup class="currency">{{currencySymbol}}</sup></div> 
     <div class="price">{{formattedDiscountAmount}} <sup class="currency">{{currencySymbol}}</sup></div> 
     {{/child}} 
    </div> 

怎么办?

+0

创建自己的机器人来蜘蛛网通常不是一个好主意。例如:网站可能会更改,您可能会被阻止。联系网站的所有者,并询问他们是否有可以下载价格的文件。 –

+0

好点,但其他方式 - 有一个促销活动,如果我会看到这次旅行比我已经定价便宜 - 他们会给我回差异,所以我需要每天都查看它 - 但我会问无论如何 – Laki

回答

0

我个人使用php的simple_html_dom库。我非常满意,因为它是非常容易使用(非常像JQuery的Javascript的) http://simplehtmldom.sourceforge.net

你可以使用这样的:

//getting the file  
$html = file_get_html('https://example.com/you/want/data/from'); 

//only selecting the element you want 
$element = $html->find('.some_class'); 

所以你可以把你想要的值并将它们用于您的愿望。我使用cron来自动提取数据。

+0

它仍然不能解决问题,因为file_get_html没有捕捉到值 – Laki