因此,我有一个文档语料库,我需要找到所有文档中所有大写字母(即该字中的每个字符都是大写字母)的所有单词在R.我不知道如何找到。我已经看过R中的文本挖掘'tm'包,并且没有可以找到这种功能的函数。如何找到R中所有的大写单词
输入字符串:"Russia Is THE BiggEST cOUNTRY"
输出要求:"THE"
如何做到这一点使用 “TM” 包?
因此,我有一个文档语料库,我需要找到所有文档中所有大写字母(即该字中的每个字符都是大写字母)的所有单词在R.我不知道如何找到。我已经看过R中的文本挖掘'tm'包,并且没有可以找到这种功能的函数。如何找到R中所有的大写单词
输入字符串:"Russia Is THE BiggEST cOUNTRY"
输出要求:"THE"
如何做到这一点使用 “TM” 包?
尝试使用正则表达式。
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"
您可以使用gregexpr和regmatches:
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
abc <- "Russia Is THE BiggEST cOUNTRY"
随着stringr(如果你想找到帽所有这些单词(载体)不只是第一个):
s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE" "IN" "WORLD"
这只会找到一个工作d,例如用'string < - “来试试俄罗斯是BiggEST COUNTRY”' – Cath