我试图从http://www.kavita-ganesan.com/entity-ranking-data解析无效的XML中的R
提供的数据存储库解析汽车检讨数据集是格式化为
<DOC>
<DATE>Some Text</DATE>
<AUTHOR>Some Text</AUTHOR>
<TEXT>Some Text</TEXT>
<FAVORITE>Some text</FAVORITE>
</DOC>
<DOC>
<DATE>Some Text</DATE>
<AUTHOR>Some Text</AUTHOR>
<TEXT>Some Text</TEXT>
<FAVORITE>Some text</FAVORITE>
</DOC>
.....
一系列包含的文本文件。这是不是有效的XML尽管它看起来像XML。
我想通过在文本的开始和结尾添加标签<file>
和</file>
以强制它成为有效的XML。
library(XML)
#read the file and append the tags
file = c("<file>",readLines("2007/2007_nissan_versa"),"</file>")
#remove invalid characters
file = gsub(pattern = "[&\"\']",replacement = "",x = file)
xmlParse(file)
它的工作,然后它可以通过XMLPARSE解析,但是,我不知道是否有一个更优雅的解决方案在那里。
对我来说看起来不错/优雅。 –
谢谢@Aurèle。但我想知道是否有更高效的解决方案,不需要两次读取数据并使用gsub。 – comendeiro