R gsub从文本中提取电子邮件

我有一个变量a由readLines创建的文件包含一些电子邮件。我已经只过滤了那些带有@符号的行，现在正在努力抓住电子邮件。在我的变量的文本看起来是这样的：R gsub从文本中提取电子邮件

> dput(a[1:5]) 
c("buenas tardes. excelente. por favor a: [email protected]", 
"[email protected] ", "Aprecio tu aporte , mi correo es [email protected] , Muchas Gracias", 
"gracias [email protected]", "Me apunto, muchas gracias mi direcciÃ³n [email protected] me serÃ¡ de mucha utilidad. " 
)

从this问题的，所以我就一个起点提取电子邮件（@Aaron Haurun的答案），其略作修改（我加了一个[\w.]的@前解决电子邮件与名称之间的.）在regex101.com中运行良好，可以提取电子邮件。但是，它未能当我把它移植到gsub：

> gsub("()(\\w[\\w.][email protected][\\w.-]+|\\{(?:\\w+, *)+\\w+\\}@[\\w.-]+)()", 
     "\\2", 
     a[1:5], 
     perl = FALSE) ## It doesn't matter if I use perl = TRUE 

[1] "buenas tardes. excelente. por favor a: [email protected]"   "[email protected] "                   
[3] "Aprecio tu aporte , mi correo es [email protected] , Muchas Gracias"       "gracias [email protected]"                  
[5] "Me apunto, muchas gracias mi direcciÃ³n [email protected] me serÃ¡ de mucha utilidad. "

什么我做错了，我怎么能抓住这些电子邮件？谢谢！

来源

2016-06-07 PavoDive

使用stringr'str_extract'喜欢的东西'“关于解决\ \ S + @ [^ \\小号@。] + \\。\\ S +“'。可能有很多其他的电子邮件提取正则表达式（只是搜索） –

我们可以尝试从str_extract()包stringr：

str_extract(text, "\\S*@\\S*") 

[1] "[email protected]"    
[2] "[email protected]"    
[3] "[email protected]"    
[4] "[email protected]"  
[5] "[email protected]"

其中\\S*匹配任意数量的非空格字符的。

来源

2016-06-07 13:58:25 Psidom

从你在你的问题发布答案，

library(stringr) 
str_extract(a, '\\[email protected]\\S+|\\{(?:\\w+, *)+\\w+\\}@[\\w.-]+') 
#[1] "[email protected]"    "[email protected]"    "[email protected]"    "[email protected]"  
#[5] "[email protected]"

来源

2016-06-07 13:58:13 Sotos

如果你想提取多个电子邮件（继续搜索）使用'str_extract_all' – Dzidas

我们可以使用base R选项来做到这一点

unlist(regmatches(a, gregexpr("\\[email protected]\\S+", a))) 
#[1] "[email protected]"  
#[2]"[email protected]" 
#[3] "[email protected]"    
#[4] "[email protected]" 
#[5] "[email protected]"

或者作为OP的帖子是gsub/sub

sub("(.*\\s+|^)(\\[email protected]\\S+).*", "\\2", a) 
#[1] "[email protected]" 
#[2] "[email protected]" 
#[3] "[email protected]"    
#[4] "[email protected]" 
#[5] "[email protected]"

来源

2016-06-07 16:43:04 akrun

R gsub从文本中提取电子邮件

回答

相关问题