1
目前我有一堆.txt文件。在每个.txt文件中,每个句子由换行符分隔。如何将其更改为IMS CWB格式以便CWB可读?并以nltk格式。如何构建IMS开源语料库工作台和NLTK可读语料库?
有人能带我去howto页面吗?还是有一个指导页面来做到这一点,我试过阅读手册,但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
这是否意味着我创建一个数据和注册表目录,然后我运行cwb-encode命令,它将被全部转换为vrt文件?它一次转换一个文件吗?我如何编写脚本来运行目录中的多个文件?
谢谢malouf。我已经把他们搞砸了。我正在使用cQP网站来将语料库托管给语料库,我如何为语料库创建元数据文件?我是否为每个文件创建一个元数据,或者为整个corupus创建一个元数据文件? – alvas 2011-03-25 05:25:59