stringr

    3热度

    2回答

    提取物的话考虑一下这个简单的例子 dataframe <- data_frame(text = c('WAFF;WOFF;WIFF200;WIFF12', 'WUFF;WEFF;WIFF2;BIGWIFF')) > dataframe # A tibble: 2 x 1 text <chr> 1 WAFF;WOFF;WIFF20

    8热度

    4回答

    我有这样的数据帧,它看起来像这样: 我需要从在列采取的第一个字符,在整个价值,然后在结尾添加一个计数器,以便在列a中重复递增。该计数器必须始终为三。最终的结果是这样的: 所以这里没有什么戏剧性,我可以用下面的代码来做到这一点(准备留下深刻的印象): library(stringr) tk <- "" for (i in 1:nrow(df)){ if (tk == df$an[i])

    1热度

    3回答

    我有一个字符串向量,需要检查它们是否符合某个标准。例如,如果某个字符串,如"34|40|65"完全由这些模式组成:c("34", "35", "37", "48", "65"),那么我想返回1,如果它们的字符串不包含任何这些模式,那么我想返回-1。如果字符串包含一些模式,但并不完全由这些模式组成,那么我想返回0.我已经成功实现了1和-1,但是在产生0的逻辑中遇到了问题。作为立场,我的逻辑为那些应该

    0热度

    1回答

    我有一个正则表达式能够匹配我的数据,使用grepl,但我无法弄清楚如何将其中的子表达式提取到新列。 这是回归测试字符串作为foo,没有任何的子表达式: entryPattern <- "(\\d+)\\s+([[:lower:][:blank:]-]*[A-Z][[:alpha:][:blank:]-]+[A-Z]\\s[[:alpha:][:blank:]]+)\\s+([A-Z]{3})\\s

    3热度

    3回答

    我有像这样一串字符串: x <- c("4/757.1%", "0/10%", "6/1060%", "0/0-%", "11/2055%") 他们分数和分数表示的百分比值,它在某种程度上得到了某处一起捣成泥。所以这个例子中第一个数字的含义是7个中有4个是57.1%。我可以很容易地在/之前得到第一个数字(例如,stringr::word(x, 1, sep = "/")),但第二个数字可以是一

    2热度

    1回答

    ,我有以下的数据帧: df <- structure(list(gene_id = c("RNA18S5", "RNA18S5", "RNA18S5", "RNA18S5", "RNA18S5"), samplename = c("XX_135_S14.Adipose", "XX_133_S12.Adipose", "XX_128_S7.Umbilical", "XX_117_S11.Live

    0热度

    1回答

    我正在寻找只提取视频id字符串从一列youtube链接。 我目前使用的stringr功能是这样的: str_extract(data$link, "\\b[^=]+$") 这适用于与后出现的URL的末尾号最标准的YouTube链接等号(=)即 youtube.com/watch?v=kFF0v0FQzEI 然而,并非所有的链接遵循此模式,例: youtube.com/v/kFF0v0FQz

    2热度

    4回答

    我知道这个问题已经在几个地方问过了,但我没有看到这个问题的确切答案。 所以我试图在正则表达式的帮助下从R中的字符串(“试图”)中提取第二个单词。我不想使用不公开(strsplit) sen= "I am trying to substring here something, but I am not able to" str_extract(sen, "trying to\\W*\\s+((?

    1热度

    1回答

    我想检查是否有任何的一组“关键字”出现在一个字符串中。因此,对于下面的“文本”,结果应该为TRUE(或1),对于text_2,它应该是FALSE(或0)。 keywords <- c("one", "two", "three", "four") #set of keywords text <- "Blah blah one blah two" text_2 <- "Blah blah" 我

    4热度

    2回答

    我需要一些帮助来将存储在向量中的少数字符串与存储在数据帧(data.table)列中的地址进行匹配。我的数据库大约有100万条记录,因此我更喜欢使用data.table。 下面是数据和载体的虚拟样品 - my <- data.frame(add=c("50, nutan nagar Mum41","50, nutan Mum88 Maha","77, amar nagar Blr79 Bang",