2017-06-21 82 views
0

我有一个数据帧(df1)作为单列数据报废。R数据清理

1 
2 Amazon Pantry 
3 Best Sellerin Soaps & Hand Wash 
4 
5 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 
6 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 
7 £0.90 
8 ? 
9 
10 Palmolive Naturals Nourishing Liquid Hand Wash, 300ml 
11 Palmolive Naturals Nourishing Liquid Hand Wash, 300ml 
12 £0.90 
13 ? 
14 
15 L'Oreal Men Expert Carbon Protect Deodorant 250ml 
16 L'Oreal Men Expert Carbon Protect Deodorant 250ml 
17 £1.50 

为了清理数据,我尝试使用下面的命令,以便在2个独立的列中获取产品和定价信息。有人可以告诉我是否有一种替代方法。

install.packages("splitstackshape") 
newdf <- cSplit(df1, "Amazon_Normal_Text2", direction = "long") 

回答

0

这仅仅是一个思维过程...

  1. 每次有“ml,”提取信息,直到ml会落后,直到有空间和存储到容量可变的。 (substr
  2. £提取信息到字符串的末尾并将其存储到价格变量中。 (grepregexnchar)从字符串的开头
  3. 提取直到体积发生成产物可变的字符位置(substrnchar

直视substrnchargrepregex