3
我在R中使用tokenizers
包来标记文本,但非字母数字符号(如“@”或“&”)已丢失,我需要保留它们。下面是我使用的功能:如何在R中标记单词时保留非字母数字符号?
tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim = " ", simplify = FALSE)
我知道tokenize_character_shingles
有strip_non_alphanum
参数,可保持标点符号,但标记化应用到字符,而不是言辞。
任何人都知道如何处理这个问题?