长时间潜伏者,第一篇文章(很温和)。我试图从一个复杂的XML文件中制作一个“整齐”的R数据帧。部分成功,但由于我对R不熟悉,我无法想出一步。我认为这并不复杂,但我不能为了我的生活而克服它。 (曾做过多种谷歌搜索,计算器多看,尝试了很多东西,在4天内 - > #fail。)XML到R数据帧,重复标识符
XML文件的摘录部分:
library(XML) mss <- xmlParse("BITECA.toy.XML") xxx <- xmlToDataFrame(nodes = getNodeSet(mss, "//*/MsEd/MsEdID | //*/GeoMilestoneInfo/Dates"), collectNames=FALSE, stringsAsFactors = TRUE)
write.table到一个文本文件,得到:
"Bibliography" "Type" "IDNo" "text" "BITECA" "manid" "1086" NA NA NA NA "1351 - 1400 (Bohigas i Riera)" NA NA NA "1341 - 1360 (Lola Badia)" NA NA NA "1401 - 1450 (Panunzio)" "BITECA" "manid" "2744" NA NA NA NA "1701 - 1800"
我的问题是如何在NAS填充节点标识的重复,以获得我需要的整洁数据帧。 (需要进一步处理,但我想我知道如何做到这一点。)
"Bibliography" "IDNo" "text" "BITECA" "1086" "1351 - 1400 (Bohigas i Riera)" "BITECA" "1086" "1341 - 1360 (Lola Badia)" "BITECA" "1086" "1401 - 1450 (Panunzio)" "BITECA" "2744" "1701 - 1800"
我不知道这是这将需要用的R专家有5分钟的谈话的一件事情?任何帮助将不胜感激!谢谢 - PFS
EDITS
(一)以响应以下的要求,该文件在步骤1(BITECA.toy.XML)解析是这里https://www.dropbox.com/s/6fs0usac2l1m76m/BITECA.toy.xml?dl=0
(二)澄清 - 完整的XML文件有数千的“manid”项,而不仅仅是几个图所示
给'动物园:: na.locf'看看 – hrbrmstr