常用词我有两个字符串:计数在两个字符串
a <- "Roy lives in Japan and travels to Africa"
b <- "Roy travels Africa with this wife"
我希望得到的这些字符串之间共同的字数。
答案应该是3
“罗伊”
“游记”
- “非洲”
是常用词汇
这是我尝试过的:
stra <- as.data.frame(t(read.table(textConnection(a), sep = " ")))
strb <- as.data.frame(t(read.table(textConnection(b), sep = " ")))
以独特的,以避免重复计算
stra_unique <-as.data.frame(unique(stra$V1))
strb_unique <- as.data.frame(unique(strb$V1))
colnames(stra_unique) <- c("V1")
colnames(strb_unique) <- c("V1")
common_words <-length(merge(stra_unique,strb_unique, by = "V1")$V1)
我需要这与2000和1200字符串的数据集。 我必须评估字符串的总次数是2000 X 1200.任何快速方式,不使用循环。
我也不是真的建议这个,但使用你的“stra”和“strb”,你可能只是做'merge(stra,str b)'...... – A5C1D2H2I1M1N2O1R2T1 2014-09-19 11:03:08