2017-02-16 67 views
0

从tm对象移动到koRpus对象时出现问题。 我必须用tm工具规范一个语料库,用koRpus推理结果并返回到tm来对结果进行分类。 为了做到这一点,我必须将tm对象转换为R数据框,然后将其转换为excel文件,然后转换为txt文件,最后转换为koRpus对象。 这是代码:从tm对象移动到koRpus对象,反之亦然

#from VCORPUS to DATAFRAME 
dataframeD610P<-data.frame(text=unlist(sapply(Corpus.TotPOS, `[`, "content")), stringsAsFactors=F) 

#from DATAFRAME to XLSX 
#library(xlsx) 
write.xlsx(dataframeD610P$text, ".\\mycorpus.xlsx") 

#open with excel 
#save in csv (UTF-8) 

#import in KORPUS and lemmatization with KORPUS/TREETAGGER 

tagged.results <- treetag(".\\mycorpus.csv", treetagger="manual", lang="it", sentc.end = c(".", "!", "?", ";", ":"), 
          TT.options=list(path="C:/TreeTagger", preset="it-utf8", no.unknown=T)) 

然后,我需要做的这一切倒退,回到TM。 这是代码:

#from KORPUS to TXT 
write.table([email protected]$lemma, ".\\mycorpusLEMMATIZED.txt") 

#open with a text editor and formatting of the text 

#from TXT to R 
Lemma1.POS<- readLines(".\\mycorpusLEMMATIZEDfrasi.txt", encoding = "UTF-8") 

#from R object to DATAFRAME 
Lemma2.POS<-as.data.frame(Lemma1.POS, encoding = "UTF-8") 

#from DATAFRAME to CORPUS 
CorpusPOSlemmaFINAL = Corpus(VectorSource(Lemma2.POS$Lemma1.POS)) 

是否有一个更优雅的解决方案做到这一点不留R' 我真的很感激任何帮助或反馈。

顺便说一句,有没有人知道如何问一个VCorpus内的哪个文件包含特定的令牌? 我通常会将语料库转换为数据框来识别文档。有没有办法做到这一点在tm?

回答