如何使用脚本从网站获取数据？

我想创建一个脚本，我可以使用它来跟踪旅游网站的价格。如何使用脚本从网站获取数据？

我没有看到从文件切割数据的任何问题...但我不知道如何自动获取整个网站的信息。

我用下面的调用来获取网站：

curl -o data.txt http://www.tui.pl/wypoczynek/kuba/varadero/iberostar-tainos-vra20116/OfferCodeWS/WAWVRA20171120113020171120201711301830L10VRA20116DZX1AA02

但下载的内容不包含，因为它被隐藏在价格：

<span class="price-group-desc">Cena za osobę:</span> 
    <div class="row"> 
    <div class="col-xs-7 col-xs-offset-5"> 
     {{^child}} 
     <div class="old price">{{formattedAmount}} <sup class="currency">{{currencySymbol}}</sup></div> 
     <div class="price">{{formattedDiscountAmount}} <sup class="currency">{{currencySymbol}}</sup></div> 
     {{/child}} 
    </div>

怎么办？

来源

2017-05-07 Laki

创建自己的机器人来蜘蛛网通常不是一个好主意。例如：网站可能会更改，您可能会被阻止。联系网站的所有者，并询问他们是否有可以下载价格的文件。 –

好点，但其他方式 - 有一个促销活动，如果我会看到这次旅行比我已经定价便宜 - 他们会给我回差异，所以我需要每天都查看它 - 但我会问无论如何 – Laki

我个人使用php的simple_html_dom库。我非常满意，因为它是非常容易使用（非常像JQuery的Javascript的） http://simplehtmldom.sourceforge.net

你可以使用这样的：

//getting the file  
$html = file_get_html('https://example.com/you/want/data/from'); 

//only selecting the element you want 
$element = $html->find('.some_class');

所以你可以把你想要的值并将它们用于您的愿望。我使用cron来自动提取数据。

来源

2017-05-07 10:40:44 Joris

它仍然不能解决问题，因为file_get_html没有捕捉到值 – Laki

如何使用脚本从网站获取数据？

回答

相关问题