2015-05-29 25 views
1

我有下面的代码,但它似乎很长时间 - 因为我对每个文件都做了同样的事情,我认为必须有一种方法来简化,但是它暗示我目前!任何帮助一如既往的赞赏:任何简化R代码的方法?

.LVB.SF.1.1 <- read.csv("LVB_SF_1-1.csv", header=T, sep=","); .LVB.SF.1.6 <- read.csv("LVB_SF_1-6.csv", header=T, sep=",") 
.LVB.SF.1.2 <- read.csv("LVB_SF_1-2.csv", header=T, sep=","); .LVB.SF.1.7 <- read.csv("LVB_SF_1-7.csv", header=T, sep=",") 
.LVB.SF.1.3 <- read.csv("LVB_SF_1-3.csv", header=T, sep=","); .LVB.SF.1.8 <- read.csv("LVB_SF_1-8.csv", header=T, sep=",") 
.LVB.SF.1.4 <- read.csv("LVB_SF_1-4.csv", header=T, sep=","); .LVB.SF.1.9 <- read.csv("LVB_SF_1-9.csv", header=T, sep=",") 
.LVB.SF.1.5 <- read.csv("LVB_SF_1-5.csv", header=T, sep=","); .LVB.SF.2.0 <- read.csv("LVB_SF_2.csv", header=T, sep=",") 

# Interpolate the missing monthly values - linear interpolation of above 
x <- zoo(.LVB.SF.1.1); .LVB.SF.1.1 <- as.data.frame(na.approx(x)); x <- zoo(.LVB.SF.1.2); .LVB.SF.1.2 <- as.data.frame(na.approx(x)) 
x <- zoo(.LVB.SF.1.3); .LVB.SF.1.3 <- as.data.frame(na.approx(x)); x <- zoo(.LVB.SF.1.4); .LVB.SF.1.4 <- as.data.frame(na.approx(x)) 
x <- zoo(.LVB.SF.1.5); .LVB.SF.1.5 <- as.data.frame(na.approx(x)); x <- zoo(.LVB.SF.1.6); .LVB.SF.1.6 <- as.data.frame(na.approx(x)) 
x <- zoo(.LVB.SF.1.7); .LVB.SF.1.7 <- as.data.frame(na.approx(x)); x <- zoo(.LVB.SF.1.8); .LVB.SF.1.8 <- as.data.frame(na.approx(x)) 
x <- zoo(.LVB.SF.1.9); .LVB.SF.1.9 <- as.data.frame(na.approx(x)); x <- zoo(.LVB.SF.2.0); .LVB.SF.2.0 <- as.data.frame(na.approx(x)) 

# Create rowmeans columns for all the above 
.LVB.SF.1.1$Mean <- rowMeans(.LVB.SF.1.1[,c(2:4)]); .LVB.SF.1.6$Mean <- rowMeans(.LVB.SF.1.6[,c(2:4)]) 
.LVB.SF.1.2$Mean <- rowMeans(.LVB.SF.1.2[,c(2:4)]); .LVB.SF.1.7$Mean <- rowMeans(.LVB.SF.1.7[,c(2:4)]) 
.LVB.SF.1.3$Mean <- rowMeans(.LVB.SF.1.3[,c(2:4)]); .LVB.SF.1.8$Mean <- rowMeans(.LVB.SF.1.8[,c(2:4)]) 
.LVB.SF.1.4$Mean <- rowMeans(.LVB.SF.1.4[,c(2:4)]); .LVB.SF.1.9$Mean <- rowMeans(.LVB.SF.1.9[,c(2:4)]) 
.LVB.SF.1.5$Mean <- rowMeans(.LVB.SF.1.5[,c(2:4)]); .LVB.SF.2.0$Mean <- rowMeans(.LVB.SF.2.0[,c(2:4)]) 

# RMSE Calculation 
LVB.RMSE.TWS.1.1 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.1[,5]); LVB.RMSE.TWS.1.6 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.6[,5]) 
LVB.RMSE.TWS.1.2 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.2[,5]); LVB.RMSE.TWS.1.7 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.7[,5]) 
LVB.RMSE.TWS.1.3 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.3[,5]); LVB.RMSE.TWS.1.8 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.8[,5]) 
LVB.RMSE.TWS.1.4 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.4[,5]); LVB.RMSE.TWS.1.9 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.9[,5]) 
LVB.RMSE.TWS.1.5 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.1.5[,5]); LVB.RMSE.TWS.2.0 <- rmse(LVB.OBS.TWS.LAG_ONLY[,1], .LVB.SF.2.0[,5]) 

谢谢!

+1

尝试一个循环,也许? – Frank

+4

您可以将所有文件读入列表中,然后执行列表中的所有操作。即'files <--list.files(pattern ='LVB_SF _。*。csv'); lst < - lapply(files,read.table,header = TRUE,sep =“,”); lapply(lst,function(x)zoo(..))' – akrun

+1

非常好 - 我会试试这个 - 非常感谢@akrun –

回答

2

当多次执行相同的动作序列时,函数组合应该有很大的帮助。例如

interpolate <- function(x) as.data.frame(na.approx(zoo(x))) 

# take data.frame and add 'Mean' column containing mean of columns 2:4 
addRowmeans <- function(x) { 
    x$Mean <- rowMeans(x[ , 2:4]) 
    x 
} 

使用这些将使您的代码更轻松,如最后所示。

至于遍历数据集以执行上述操作,您可以使用data.frames结构列表并使用来循环使用循环。这样可以减少代码的复制和粘贴,并使脚本更加灵活,因为更改文件数量不需要太多手动工作。

一个比for循环更好的主意是使用apply函数族,因为它们更快,语法更易理解。

随着功能从基部上述R和lapply定义,从OP算法降低到

# read all files, store them as list of data.frames 
lapply(files, read.csv, h = TRUE) -> data.list 

# Interpolate the missing monthly values - linear interpolation of above 
lapply(data.list, interpolate) -> data.interpolated 

# Create rowmeans columns for all the above 
lapply(data.interpolated , addRowmeans) -> data.interpolated 

# RMSE Calculation  (assuming rmse has arguments names x and y) 
lapply(data.interpolated[5], function(x) rmse(LVB.OBS.TWS.LAG_ONLY[1], x)) 

在哪里的文件被创建,如下

sprintf('%1.1f', seq(from = 1.9, to = 2.1, by = .1)) -> nums 
files <- paste('prefix_', nums, '.csv', sep = '') 

files 
[1] "prefix_1.9.csv" "prefix_2.0.csv" "prefix_2.1.csv"