我有这个CSV数据集,我需要创建一个函数来执行数据清理,但仍然无法正常工作,而且我的想法已经过时。数据清理和表中的拼写错误
以下是Google云端硬盘上的dataset。
这是我需要做的:
- 纠正可能的输入
- 删除不相关的数据(仅在奥克兰和惠灵顿的房屋被认为是)
- 删除离群值,例如负值区,负功耗,非常高的地区,非常高的功率消耗
到目前为止,这是我做的代码:
# Reading data set
installed.packages("lubridate")
library(lubridate)
# Reading data set
power <- read.csv("data set 6.csv", na.strings="")
# SUBSETTING
Area <- as.numeric(power$Area)
City <- as.character(power$City)
P.Winter <- as.numeric(power$P.Winter)
P.Summer <- as.numeric(power$P.Summer)
#Data Cleaning
levels(power$City) <- c(levels(power$City), "Auckland")
power$City[power$City == "Ackland"] <- "Auckland"
#Removing irrelevant data (only houses in Auckland and Wellington are considered)
power$City <- power$City[-c(496,499), ]
后,我运行此代码,拼错的单词(“阿克兰“)不会像我预期的那样改变为奥克兰。 这突出显示的行如在此图像中应该改变奥克兰:
问题寻求帮助调试(“为什么不是这个代码的工作?”)必须包括所期望的行为,一个特定的问题或错误,并重现它在问题本身所需要的最短的代码。没有明确问题陈述的问题对其他读者无益。请参阅:如何创建最小,完整和可验证示例。 –
查看函数'?droplevels'。 –
@MarcusMüller我希望我上传能给什么,我期待 – Nelson