我想将句子拆分成单词和结束标记(假设所有其他标点已被删除)。我写了一个工作职能分开描述,打破字符串(一个或多个),但我认为部分:将句子分成单词和结尾
unlist(c(strsplit(x, "[^[:alnum:]'\"]", perl = T), substring(x, nchar(x), nchar(x))))
的是,可以在不使用字符串,只是分裂的空间之间的更好地实现一粒粒工作使用an或|结束标记各种声明,但不知道我会如何实现这一点。任何方向与此将不胜感激。
breaker <- function(string) {
FUN <- function(x) {
unlist(c(strsplit(x, "[^[:alnum:]'\"]", perl = T), substring(x,
nchar(x), nchar(x))))
}
lapply(string, FUN)
}
#EXAMPLES
x <- "I'm liking it!"
breaker(x)
y <- c("I'm liking it!", "How much do you like it?", "I'd say it's awesome.")
breaker(y)
更多使用scan_tokenizer()和MC_tokenizer()雄辩。谢谢乔希。这也增加了我对正则表达式的理解。我感谢你的时间。 – 2012-01-10 19:27:38