我一直在尝试从网页中提取表格。该数据是来自实时航班跟踪网站(https://flightaware.com/live/flight/WJA1508/history/20150814/1720Z/CYYC/KSFO/tracklog)的航班航迹数据。将HTML表提取为R
我试过XML,RCurl和Curl包,但是我没有工作。我认为很可能是因为我无法弄清楚如何避免SSL以及包含关于航班状态的注释的列(即,从顶部的前两个和从底部的第三个)。
任何人都可以知道如何提取此表int R吗?
我一直在尝试从网页中提取表格。该数据是来自实时航班跟踪网站(https://flightaware.com/live/flight/WJA1508/history/20150814/1720Z/CYYC/KSFO/tracklog)的航班航迹数据。将HTML表提取为R
我试过XML,RCurl和Curl包,但是我没有工作。我认为很可能是因为我无法弄清楚如何避免SSL以及包含关于航班状态的注释的列(即,从顶部的前两个和从底部的第三个)。
任何人都可以知道如何提取此表int R吗?
正如@hrbrmstr在上述评论中指出的那样,这违反了FlightAware的TOS,但是您对您的代码所做的事情就是您的业务。 :)这应该让你最那里的方式使用rvest
包:
library(rvest)
u <- "https://flightaware.com/live/flight/WJA1508/history/20150814/1720Z/CYYC/KSFO/tracklog"
html_read <- html(u)
tbl <- html_table(
html_nodes(html_read, "table"),
fill=TRUE,
header=FALSE,
trim=TRUE
)[[2]]
## Subset to the first row of data and remove all extra
## columns:
tbl_o <- tbl[6:nrow(tbl), ]
tbl_o <- tbl_o[,colSums(is.na(tbl_o))!=nrow(tbl_o)]
names(tbl_o) <- c(
"Time", "Lat", "Lon",
"Course", "Direction",
"KTS", "MPH", "Alt",
"Rate", "Location"
)
str(tbl_o)
其中产量:
'data.frame': 292 obs. of 10 variables:
$ Time : chr "Fri 01:41:34 PM" "Fri 01:48:59 PM" "Fri 01:49:14 PM" "Fri 01:50:05 PM" ...
$ Lat : chr "51.0833" "51.1551" "51.1683" "51.2235" ...
$ Lon : chr "-113.9667" "-114.0209" "-114.0209" "-114.0220" ...
$ Course : chr "335°" "0°" "0°" "358°" ...
$ Direction: chr "Northwest" "North" "North" "North" ...
$ KTS : chr "20" "201" "219" "149" ...
$ MPH : chr "23" "231" "252" "171" ...
$ Alt : chr "3,500" "4,900" "5,200" "6,800" ...
$ Rate : chr "" "222" "1,727" "1,701" ...
$ Location : chr "Edmonton Center" "FlightAware ADS-B (CYYC)" "FlightAware ADS-B (CYYC)" "FlightAware ADS-B (CEG2)" ...
非常感谢你,Forrest!这正是我想要做的:) – Emad
非常欢迎,我已经在过去与这些细节作斗争,很高兴有一个良好的起点工作。 :) –
,如果你分享你有什么到目前为止已经试过它工作得更好。 –
他们有一个[API](http://flightaware.com/commercial/flightxml/pricing_class.rvt)(是)是付费的事情,但这可能是他们在http第6项中明确告诉你的原因://flightaware.com/about/termsofuse刮取是违反ToS的。 – hrbrmstr