请注意,您的正则表达式不允许有空格。其添加为[\\w\\s]
:
"[A-Z][\\w\\s]+"
另外,如果你的字符串总是在以上格式,你甚至都不需要stringr
库,使用基础R gsub
:
s <- "<td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10 votes 2\"> </div>\n</td>"
trimws(gsub("<[^>]+>","",s))
[1] "Amar Akbar Anthony"
见this online demo。 gsub("<[^>]+>","",s)
将删除所有打开/关闭/等。标签。
或者使用XML解析库抢a
标签值:
> library("XML")
> s <- "<td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10 votes 2\"> </div>\n</td>"
> parsed_doc = htmlParse(s, useInternalNodes = TRUE)
> res <- getNodeSet(doc = parsed_doc, path = "//a/text()")
> plain_text <- sapply(res, xmlValue)
> plain_text
[1] "Amar Akbar Anthony"
添加一个空格 - ' “[A-Z] [\\ W \\ S] +”' –
这是我想要的到底是什么 –