2014-09-23 112 views
1

我想提取足球的一些统计数据,并且遇到了soccerway。在Matlab中从iframe中提取数字

的问题是,存在一个iframe

示例URL一些统计: http://pt.soccerway.com/matches/2014/09/20/spain/primera-division/club-atletico-de-madrid/real-club-celta-de-vigo/1821403/?ICID=PL_MS_04

区域的HTML代码resuting是:

<h2>General Game Stats Chart</h2> 


<div class="content "> 
    <div class="block_match_stats_plus_chart real-content clearfix " id="page_match_1_block_match_stats_plus_chart_10"> 

    <iframe src="./Almería vs. Villarreal - 19 Agosto 2013 - Soccerway_files/saved_resource.html" style="width: 550px; height: 300px; overflow-y: hidden;" frameborder="no" allowtransparency="true" scrolling="no"> </iframe> 
    </div> 
</div> 

的部分对应我想要的是:enter image description here

我要的只是数字。有什么建议来解决这个问题?

我的想法是将其保存为图片,然后使用this从文件交换,但我不知道如何将它保存为图片。

回答

1

如果你打开你的问题的URL的HTML代码,你会看到由以下部分产生的身影:

<iframe src='/charts/statsplus/1821403/' style='width: 550px; height: 300px; overflow-y: hidden;' frameborder='no' allowtransparency="true" scrolling="no"> </iframe>

因此,所有你需要做的就是保存该文件,使用完整的URL:

http://pt.soccerway.com/charts/statsplus/1821403/

获取的文件是HTML,而不是图像文件。因此您可以直接提取数字(不需要光学字符识别)。只需保存如下

urlwrite('http://pt.soccerway.com/charts/statsplus/1821403/','file.html') 

然后你可以解析获得的file.html得到的数字。例如,对于诗章的数字(角球)都在这一部分:

<tr> <td class='legend left value'>6</td> <td colspan='4' class='legend title'>Cantos</td> <td class='legend right value'>3</td> </tr>

正如你所看到的,'legend left value'包含6个(相当于留队数,马德里竞技)和'legend right value'包含3个(右队,塞尔塔德维戈):

+0

欢迎您,并祝您的足球统计! – 2014-09-23 13:39:24