我正在收集Twitter的主题标签。每条推文都可以包含主题标签。将数据框架对象中的主题标签与R分开
tests <- c("xxxxxx #SaveTheDate xxxxxx #Histoire] xxxxxx #Femmes xxxxxxx #ports",
"xxxxxxxxxxxx",
"xxxx #rock xxxxxx #Nantes" ,
"xxxxxx #lvan xxxxxxx #nantes xxxxx #ilsepassetoujoursuntruc")
library (stringr)
hashtags <- str_extract_all(tests, "#\\S+")
str (hashtags)
马结果:
str(hashtags)
list of 4
$ : chr [1:4] "#SaveTheDate" "#Histoire]" "#Femmes" "#ports"
$ : chr(0)
$ : chr [1:2] "#rock" "#Nantes"
$ : chr [1:3] "#lvan" "#nantes" "#ilsepassetoujoursuntruc"
我想到:一个包括hashtag一个data.frame对于行
"#SaveTheDate"
"#Histoire"
"#Femmes"
"#ports"
NA
....
我试了一下:
hashtags_df <-as.data.frame(hashtags)
'as.data.frame()'应该如何描述你的意图? [This](http://stackoverflow.com/questions/38788494/hashtag-extract-function-in-r-programming/38789142#38789142)可能有助于标签识别和提取。我很好奇你将如何处理标签垃圾邮件,哈希标签污染和滥用标签。你的语料库中有20-30%会散布在那里。 – hrbrmstr
我正在努力。 – Wilcar