2017-07-04 56 views
0

我想从网页中提取值,但对于某些xml结构,我似乎得不到聚合值。rVest:如何提取值(忽略儿童)

data 
{xml_nodeset (1)} 
[1] <span class="match">tusinde<span class="super">1</span></span> 

如果我提取文本我得到:

data %>% html_text() 
tusinde1 

我要的是:

tusinde 

回答

1

没有对一般问题和重复的例子,更多的背景,所以很难提供超出您提供的特定范例的解决方案。

例如,下面的代码解决了你的问题,但是我不知道除了那个特殊情况以外,还有多少。

data <- "<span class=\"match\">tusinde<span class=\"super\">1</span></span>" 

out <- data %>% read_xml() %>% xml_contents() 

as.character(out[1]) 

为您提供:

[1] "tusinde"