我有一个要求,我正在处理韩文文本中具有双字节字符的大数据。我想寻找一个角色并取代它。为了在浏览器中正确显示韩文文本,我改变了R中的语言环境设置。但不知道它是否更新了代码。下面是我的代码来改变区域韩国和朝鲜文字变得可见正确的阅读器,但在控制台它提供了有关印刷 -R utf-8并从基于结尾字符的句子中替换单词
垃圾字符Sys.setlocale(category = "LC_ALL", locale = "korean")
我的数据是包含一个data.table格式与文本在韩国的列。例如 -
“광주광역시동구제봉로49(남동,(지하))”
我想摆脱的第一个字与 “시” 字符结尾的。然后我想摆脱“(남동,(지하))”的结局。我正在尝试gsub,但它似乎没有工作。
New <- c("광주광역시 동구 제봉로 49 (남동,(지하))")
data <- as.data.table(New)
data[,New_trunc := gsub("\\b시", "", data$New)]
请让我知道我错了。因为我想搜索单词的结尾,所以我使用\\ b,并且因为我想替换以“시”字符结尾的任何单词,我将它作为\\ b시.....这是不是给?如何照顾()在句尾。
什么将是一个很好的来源参考正则表达式。
脚本还需要utf-8设置吗?怎么做?
所以,你想从字的*结尾*中删除该字符?你需要使用'gsub(“시\\ b”,“”,New)' –
你不想清楚你想在字符串末尾去掉什么:一个空格跟着'(',然后是0+字符除了空格,最后的字符应该是')'?或嵌套'(...(..(。)。)..)'?试试'gsub(“시\\ b | \\ s + \\(+ \\ S * \\)+ $”,“”,New)'。 –
尝试'gsub(“시\\ b | \\ s + \\(+ \\ S * \\)+ $”,“”,New)' –