2011-02-18 87 views
1

目前我有一堆.txt文件。在每个.txt文件中,每个句子由换行符分隔。如何将其更改为IMS CWB格式以便CWB可读?并以nltk格式。如何构建IMS开源语料库工作台和NLTK可读语料库?

有人能带我去howto页面吗?还是有一个指导页面来做到这一点,我试过阅读手册,但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

这是否意味着我创建一个数据和注册表目录,然后我运行cwb-encode命令,它将被全部转换为vrt文件?它一次转换一个文件吗?我如何编写脚本来运行目录中的多个文件?

回答

2

可以很容易地从NLTK可读语料库产生CWB的“垂直化”的格式:

from nltk.corpus import brown 

out = open('corpus.vrt','w') 
for sentence in nltk.brown.sents(): 
    print >>out,'<s>' 
    for word in sentence: 
      print >>out,word 
    print >>out,'</s>' 
out.close() 

从那里,你可以按照instructions on the CWB website

+0

谢谢malouf。我已经把他们搞砸了。我正在使用cQP网站来将语料库托管给语料库,我如何为语料库创建元数据文件?我是否为每个文件创建一个元数据,或者为整个corupus创建一个元数据文件? – alvas 2011-03-25 05:25:59