如何构建IMS开源语料库工作台和NLTK可读语料库？

目前我有一堆.txt文件。在每个.txt文件中，每个句子由换行符分隔。如何将其更改为IMS CWB格式以便CWB可读？并以nltk格式。如何构建IMS开源语料库工作台和NLTK可读语料库？

有人能带我去howto页面吗？还是有一个指导页面来做到这一点，我试过阅读手册，但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

这是否意味着我创建一个数据和注册表目录，然后我运行cwb-encode命令，它将被全部转换为vrt文件？它一次转换一个文件吗？我如何编写脚本来运行目录中的多个文件？

2011-02-18 alvas

可以很容易地从NLTK可读语料库产生CWB的“垂直化”的格式：

from nltk.corpus import brown 

out = open('corpus.vrt','w') 
for sentence in nltk.brown.sents(): 
    print >>out,'<s>' 
    for word in sentence: 
      print >>out,word 
    print >>out,'</s>' 
out.close()

从那里，你可以按照instructions on the CWB website。

来源

2011-03-23 20:47:04 rmalouf

谢谢malouf。我已经把他们搞砸了。我正在使用cQP网站来将语料库托管给语料库，我如何为语料库创建元数据文件？我是否为每个文件创建一个元数据，或者为整个corupus创建一个元数据文件？ – alvas 2011-03-25 05:25:59

如何构建IMS开源语料库工作台和NLTK可读语料库？

回答

相关问题