因此，我有一个文档语料库，我需要找到所有文档中所有大写字母（即该字中的每个字符都是大写字母）的所有单词在R.我不知道如何找到。我已经看过R中的文本挖掘'tm'包，并且没有可以找到这种功能的函数。如何找到R中所有的大写单词

输入字符串："Russia Is THE BiggEST cOUNTRY"

输出要求："THE"

如何做到这一点使用 “TM” 包？

2016-09-14 J. Tang

尝试使用正则表达式。

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE"

2016-09-14 12:08:43

这只会找到一个工作d，例如用'string < - “来试试俄罗斯是BiggEST COUNTRY”' – Cath

您可以使用gregexpr和regmatches：

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE"

数据

abc <- "Russia Is THE BiggEST cOUNTRY"

2016-09-14 12:19:55

随着stringr（如果你想找到帽所有这些单词（载体）不只是第一个）：

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD"

2016-09-14 12:27:37

如何找到R中所有的大写单词