2017-10-14 88 views
1

我想问问任何人是否有将MeCab中的日文字典数据编码为UTF-8的经验。 我安装了MeCab并安装了R中的RMeCab软件包以制作日文字图,但由于字典数据未编码为UTF-8,所以POS标记似乎不起作用。使用UTF-8通过RMeCab/MeCab加载日文字典

library("RMeCab") 
library("wordcloud") 
setwd('C:\\Users\\sukyu\\Desktop\\JP') 
word <- RMeCabFreq("OLS_Japantext.txt") 
word <- subset(word,Info1=="名詞") 
type <- c("数","非自立","接尾") 
word <- subset(word,!Info2%in% type) 
word <- word[order(word$Freq,decreasing =T),] 
pal <- brewer.pal(8,"Spectral") 
par(family = "HiraKakuProN-W3") 
wordcloud(word$Term,word$Freq,min.freq = 1,colors=pal, 
     random.order = TRUE,scale = c(5,4)) 

回答

0

虽然默认情况下它不使用UTF8,但MeCab有强制它的构建选项。尝试这样构建它:

./configure --with-charset=utf8 --enable-utf8-only 

这应该解决它。