在R分析感伤分析的Facebook评论。表情符号在<>符号之间的文本中编码。R - 如何分割文本和标点符号以及异常?
实施例:
"Jesus te ama!!! <U+2764> Ou não...?<U+1F628> (fé em stand by)"
<U+2764>
和<U+1F628>
(分别为重黑色心脏和恐惧的脸, )是表情符号。
因此,除了表情符号代码,我需要分割文字/数字和标点/符号。 我所做的,使用GSUB功能,这一点:
a1 <- "([[:alpha:]])([[:punct:]])"
a2 <- "([[:punct:]])([[:alpha:]])"
b <- "\\1 \\2"
gsub(a1, b, gsub(a2, b, "Jesus te ama!!! <U+2764> Ou não...?<U+1F628> (fé em stand by)"))
......可是,结果,在逻辑上,也影响表情符号代码:
[1] "Jesus te ama !!! < U +2764> Ou não ...?< U +1F628> (fé em stand by)"
的目标是创建一个例外<之间的文本>,外部拆分它,不要分裂内部 - 即:
[1] "Jesus te ama !!! <U+2764> Ou não ...? <U+1F628> (fé em stand by)"
需要注意的是:
- 有时句子/字/ PUNCT和一个表情符号代码之间的空间是不存在的(需要被创建)
- 这是要求一个PUNCT序列停留加入(例如“!!!” “......?”)
我该怎么办呢?
我的权利前段时间有同样的问题,尽管我丢弃了大多数表情符号,但只留下了六打,这对我的特殊情绪分析来说特别常见和相关。 因此,我替换了一致字符串的相关unicode(即gsub(“U + 1F642 | U + 263A”,“emoji_happy_faces”,df $ comment),之后我才用tm软件包删除了标点符号。 (所有表情符unicdoes可以在这里找到:http://unicode.org/emoji/charts/full-emoji-list.html) –