stringr

0热度

1回答

我在数据框中有四列数据。这些列根据北/南/东/西拆分（NO记录存在于多于一列中）来指定记录（行）是否位于伦敦的4个不同部分内，因此（其中第一行是列标题）： North South East West NA South NA NA NA NA East NA North NA NA NA 我想用这些作为一个图表中的一个因素，因此，使用tidyr我串接他们 LondonNe

2热度

4回答

使用stringr来提取文本串的一个或多个单词中的R

我有以下的数据帧： df <- data.frame(city=c("in London", "in Manchester city", "in Sao Paolo")) 我使用str_extract和后返回字在一个单独的列“中”。 library(stringr) str_extract(df$city, '(?<=in\\s)\\w+') 这对95％的案例适合我。然而，在上面的例子中

11热度

2回答

使用R计算字符串中的连续模式

我正在尝试编写一个函数来计算模式的连续实例数。举个例子，我想串 string<-"A>A>A>B>C>C>C>A>A" 改造成 "3 A > 1 B > 3 C > 2 A" 我有一个计算每个字符串的实例函数，见下文。但它没有达到我想要的排序效果。任何想法或指针？感谢， [R 现有功能： fnc_gen_PathName <- function(string) { p <- strsp

1热度

1回答

strsplit由空格多于一个中的R

如果给定字符串时， mystr = "Average student score 88" 我要拆分，如果有多于1个空间。我希望获得以下内容： "Average student score" "88" 我搜索到“\ s +”会被任意数量的空格分割。 strsplit(mystr, "\\s+") 但这不是我想要的。 strsplit中是否有任何选项可以根据一定数量的空格（比如space

2热度

3回答

双正则表达式匹配列[R

这是一个问题，我昨天问了遵循： Partial string match two columns R 提供给这个答案是伟大的;然而，我发现许多物种并没有被直接提及，也就是说乌龟从来没有被直接描述在数据产品中，但是“异国情调”是可以接受的匹配。 dats<-data.frame(ID=c(1:4),species=c("dog","cat","rabbit","tortoise"),

1热度

1回答

sapply一个ifelse函数对不同长度的字符向量[r]

对我的问题的任何帮助将非常感谢，谢谢。我有一个数据框，其中第二列已经从第一列（在前面的步骤）中提取的“已选”单词现在经常（但并非总是）将它们留在不同的运行顺序中。我现在需要按照与'wordsDF $ original'列中的相同的运行顺序来获取'wordsDF $ subbed'列中的单词。我已经发布了一个小子集来说明第四列（wordsDF $ target），我已经完成了手工展示我的目标。

0热度

1回答

如何匹配某个字符后的单词而不知道R中的单词？

我想在我的文本中匹配-之后的单词，如果匹配单词是另一个单词的结尾，那么我想在单词和匹配单词之间进行分割。文字例子： JOHN LION - XYZ RAN RUN TREEABC GRASS - ABC LIMB RAN RUN LION -XYZ JOG SUN SKY - ABC LION JOHN PONDABC RUN - PDF STONE 什么，我想文本看起来像： JOHN L

9热度

2回答

str_replace“NA”的意外行为

我试图将字符串转换为数字，并且遇到一些意外的行为str_replace。这里有一个最低工作例如： library(stringr) x <- c("0", "NULL", "0") # This works, i.e. 0 NA 0 as.numeric(str_replace(x, "NULL", "")) # This doesn't, i.e. NA NA NA as.nume

0热度

2回答

的第一个完整的* .zip文件的文件名

stringr正则表达式我有以下代码： test_zip_col <- "daily_44201_2015.zip259,151 Rows2,958 KBAs of 2015-11-27" test_zip_col2 <- str_extract(test_zip_col, '^*\\.zip$') test_zip_col test_zip_col2 我要提取的文件名*.zip

3热度

3回答

计数模式并区分它们

我想为一个数据帧的每一行计算一个字符串中定义的模式（这里：'Y'）。理想情况下，我想在V3中获得一些事件，并在V4中获得长度。输入： V1 V2 A XXYYYYY B XXYYXX C XYXXYX D XYYXYX 输出： V1 V2 V3 V4 A XXYYYYY 1 5 B XXYYXX 1 2 C XYXXYX 2 1,1 D XYYXYX 2 2,1 我尝试